Meadow WM (GamML) · OpenAI Gym Causal Tree

同一個 Meadow 架構，不同的任務入口。

Meadow WM 主線處理機器人、工業設備與 OGBench 物理任務；GamML 這條線則用 OpenAI Gym 的遊戲做控制學實驗。差異不是架構不同，而是 DeviceSpec 從機械手臂/設備參數換成遊戲物理參數，GoalSpec 從抓取/放置/校正換成存活、到達、擺起、降落等成功條件。

v1 先選這些遊戲，因為它們覆蓋不同因果能力。

這一版不是只展示舊模型，而是把每個任務重新用 Think 因果樹跑過一次。成功與限制都保留：CartPole、MountainCar、LunarLander、Pendulum、Acrobot、MiniGrid DoorKey、FlappyBird、MinAtar Breakout、BipedalWalker、CarRacing 與 Atari Pong smoke 都已有可追溯 artifact；Pong 的完整得分優化放下一輪。

Stability

CartPole

平衡控制與短時間反應。適合測 Think 是否能把角度、角速度、推力與失敗邊界放進同一棵因果樹。

目前狀態2/2 solved
mean return500.0
planning0.74 ms

Delayed reward

MountainCar

不能直接到目標，必須先反向蓄能。代表因果樹需要理解「短期遠離目標，長期更接近成功」。

目前狀態5/5 terrain
terrain return-110.8
terrain steps110.8

Underactuated

Acrobot

多連桿、欠驅動、需要擺盪累積角動量。新版 energy causal tree 用 pump / coast / brake_hold primitives 解 recorded seeds。

目前狀態2/2 solved
mean return-131.5
mean steps132.5

Arcade physics

FlappyBird

重力、衝量、障礙預測、低延遲反應。這是目前最直觀的「遊戲感」因果樹成功展示。

目前狀態2/2 success
survival260 steps
planning3.44 ms

Arcade object physics

MinAtar Breakout

球、板、磚塊、反彈與接球位置。比 ALE pixel 更適合現在的物件因果樹。

score16.0
survival180 steps
candidates243

Robot-like game

BipedalWalker

很像遊戲，也接近機器人。成功版使用 gait-prior causal tree：每步展開步態候選，評估前進、跌倒風險、接觸一致性與能耗。

目前狀態4/4 solved
mean return310.35
steps1600

Racing

CarRacing

畫面最像遊戲，包含轉向、油門、煞車與路線選擇。成功版使用 racing-line causal tree，比較外內外、late apex、煞車入彎等候選路線。

目前狀態1/1 solved
return902.4
tiles291/291

Legacy bridge

LunarLander

推力、姿態、腿部接觸、落點穩定。Think teacher 展開 descent、attitude correction、brake、contact stabilize 候選。

目前狀態2/2 demos
mean return234.0
mean planning0.29 ms

Torque control

Pendulum

連續 torque、swing-up、brake、穩定直立。適合測物理量連續控制與低延遲 Reaction 蒸餾資料。

目前狀態3/3 recorded
mean return-80.17
forced-down demostep 66 upright
planning1.34 ms

Rule memory

MiniGrid DoorKey

鑰匙、門、解鎖、目標順序。測的是因果樹不只做物理，也能做規則記憶與 symbolic/continuous hybrid plan。

目前狀態2/2 solved
mean return0.9676
mean steps9.0

任務	Env	Think Evidence	影片	目前結論	Artifact
CartPole	CartPole-v1	2 episodes; mean return 500.0; candidate_count 32; horizon 5; planning 0.739 ms	2 MP4	causal tree solved	`gamml_gym_v1/classic_causal_tree/summary.json`
FlappyBird	FlappyBird-v0	2 episodes; success 2/2; survival 260 steps; score 6; candidate_count 128; planning 3.44 ms	2 MP4 + 2 GIF	game-like success	`gamml_gym_v1/flappybird/summary.json`
MinAtar Breakout	MinAtar/Breakout-raw-v0	2 episodes; mean score 16.0; survival 180 steps; candidate_count 243; planning 151.65 ms	2 MP4 + 2 GIF	object causal tree works	`gamml_gym_v1/minatar_breakout/summary.json`
MountainCar	MountainCar-v0	base seed eval: 8/8 success; parameter variants: 5/5 success; custom terrain variants: 5/5 success; terrain mean return -110.8; terrain mean steps 110.8; terrain candidate_count 340	8 seed MP4 + 5 parameter MP4 + 5 terrain MP4	energy-phase tree handles parameter and terrain variants	`gamml_gym_v1/mountaincar_energy/summary.json` `gamml_gym_v1/mountaincar_parameter_variants/summary.json` `gamml_gym_v1/mountaincar_terrain_variants/summary.json`
Acrobot	Acrobot-v1	energy swing-up causal tree: recorded seeds 2/2 solved; mean return -131.5; mean steps 132.5; primitives pump_forward / pump_backward / coast / brake_hold	2 MP4 + 2 GIF	solved on recorded seeds by energy causal tree	`gamml_gym_v1/acrobot_energy_causal_tree/summary.json`
LunarLander	LunarLander-v3	descent/attitude causal tree: 2 recorded landing demos; return >= 200 in 2/2; mean return 233.97; mean planning 0.29 ms; v2 deprecated, v3 fixed in summary	2 MP4 + 2 GIF	successful landing demos, not 100-episode benchmark	`gamml_gym_v1/lunarlander_causal_tree/summary.json`
Pendulum	Pendulum-v1	torque causal tree: 3/3 recorded seeds pass -150 threshold; mean return -80.17; forced-down demo starts at theta=pi and reaches upright around step 66; mean planning 1.34 ms; primitives swing_up / brake / stabilize_upright	4 MP4 + 4 GIF	recorded-seed torque control success	`gamml_gym_v1/pendulum_torque_causal_tree/summary.json`
MiniGrid DoorKey	MiniGrid-DoorKey-5x5-v0	rule/memory causal tree: 2/2 success; mean return 0.9676; mean steps 9.0; key/door/goal memory with go_to_key / pickup / unlock / go_to_goal	2 MP4 + 2 GIF	symbolic rule-memory causal tree works	`gamml_gym_v1/minigrid_doorkey_causal_tree/summary.json`
Atari Pong	ALE/Pong-v5	pixel object causal-tree smoke: 1 episode; 300 steps; score 0.0 after intercept memory prior; candidate_count 27; mean planning 22.47 ms; extracts ball/player paddle/opponent paddle from RGB and ranks noop/up/down chains	1 MP4 + 1 GIF	honest smoke, not solved	`gamml_gym_v1/atari_pong_causal_tree/summary.json`
BipedalWalker	BipedalWalker-v3	gait-prior causal tree: 4 episodes; success 4/4; mean return 310.35; mean steps 1600; mean_max_x 87.76; candidates stay_on_one_leg / put_other_down / push_off / recovery	4 success MP4	solved by gait-prior causal tree Think teacher	`gamml_gym_v1/bipedalwalker_causal_tree_success/summary.json`
CarRacing	CarRacing-v3	first-lap memory racing-line causal tree: recon lap 986 steps; sprint lap return 904.5; 955 steps; 291/291 tiles; lap_finished=true; TRACK_WIDTH=6.6667; selected outside-inside-outside 563 times	1 success MP4	solved by racing-line causal tree Think teacher	`gamml_gym_v1/carracing_per_corner_memory_tree/summary.json`

任務

Env

Think Evidence

影片

目前結論

Artifact

CartPole

CartPole-v1

2 episodes; mean return 500.0; candidate_count 32; horizon 5; planning 0.739 ms

2 MP4

causal tree solved

gamml_gym_v1/classic_causal_tree/summary.json

FlappyBird

FlappyBird-v0

2 episodes; success 2/2; survival 260 steps; score 6; candidate_count 128; planning 3.44 ms

2 MP4 + 2 GIF

game-like success

gamml_gym_v1/flappybird/summary.json

MinAtar Breakout

MinAtar/Breakout-raw-v0

2 episodes; mean score 16.0; survival 180 steps; candidate_count 243; planning 151.65 ms

2 MP4 + 2 GIF

object causal tree works

gamml_gym_v1/minatar_breakout/summary.json

MountainCar

MountainCar-v0

base seed eval: 8/8 success; parameter variants: 5/5 success; custom terrain variants: 5/5 success; terrain mean return -110.8; terrain mean steps 110.8; terrain candidate_count 340

8 seed MP4 + 5 parameter MP4 + 5 terrain MP4

energy-phase tree handles parameter and terrain variants

gamml_gym_v1/mountaincar_energy/summary.json
gamml_gym_v1/mountaincar_parameter_variants/summary.json
gamml_gym_v1/mountaincar_terrain_variants/summary.json

Acrobot

Acrobot-v1

energy swing-up causal tree: recorded seeds 2/2 solved; mean return -131.5; mean steps 132.5; primitives pump_forward / pump_backward / coast / brake_hold

2 MP4 + 2 GIF

solved on recorded seeds by energy causal tree

gamml_gym_v1/acrobot_energy_causal_tree/summary.json

LunarLander

LunarLander-v3

descent/attitude causal tree: 2 recorded landing demos; return >= 200 in 2/2; mean return 233.97; mean planning 0.29 ms; v2 deprecated, v3 fixed in summary

2 MP4 + 2 GIF

successful landing demos, not 100-episode benchmark

gamml_gym_v1/lunarlander_causal_tree/summary.json

Pendulum

Pendulum-v1

torque causal tree: 3/3 recorded seeds pass -150 threshold; mean return -80.17; forced-down demo starts at theta=pi and reaches upright around step 66; mean planning 1.34 ms; primitives swing_up / brake / stabilize_upright

4 MP4 + 4 GIF

recorded-seed torque control success

gamml_gym_v1/pendulum_torque_causal_tree/summary.json

MiniGrid DoorKey

MiniGrid-DoorKey-5x5-v0

rule/memory causal tree: 2/2 success; mean return 0.9676; mean steps 9.0; key/door/goal memory with go_to_key / pickup / unlock / go_to_goal

2 MP4 + 2 GIF

symbolic rule-memory causal tree works

gamml_gym_v1/minigrid_doorkey_causal_tree/summary.json

Atari Pong

ALE/Pong-v5

pixel object causal-tree smoke: 1 episode; 300 steps; score 0.0 after intercept memory prior; candidate_count 27; mean planning 22.47 ms; extracts ball/player paddle/opponent paddle from RGB and ranks noop/up/down chains

1 MP4 + 1 GIF

honest smoke, not solved

gamml_gym_v1/atari_pong_causal_tree/summary.json

BipedalWalker

BipedalWalker-v3

gait-prior causal tree: 4 episodes; success 4/4; mean return 310.35; mean steps 1600; mean_max_x 87.76; candidates stay_on_one_leg / put_other_down / push_off / recovery

4 success MP4

solved by gait-prior causal tree Think teacher

gamml_gym_v1/bipedalwalker_causal_tree_success/summary.json

CarRacing

CarRacing-v3

first-lap memory racing-line causal tree: recon lap 986 steps; sprint lap return 904.5; 955 steps; 291/291 tiles; lap_finished=true; TRACK_WIDTH=6.6667; selected outside-inside-outside 563 times

1 success MP4

solved by racing-line causal tree Think teacher

gamml_gym_v1/carracing_per_corner_memory_tree/summary.json

同一個 Meadow 架構，不同的任務入口。

v1 先選這些遊戲，因為它們覆蓋不同因果能力。

CartPole

MountainCar

Acrobot

FlappyBird

MinAtar Breakout

BipedalWalker

CarRacing

LunarLander

Pendulum

MiniGrid DoorKey

v1 causal-tree Think 影片。

CartPole · causal tree

FlappyBird · causal tree

MinAtar Breakout · causal tree

CarRacing 最新版 · first-lap memory sprint tree

CarRacing 保留對照版 · no per-corner memory

BipedalWalker · gait causal tree

MountainCar · terrain causal lines

LunarLander · descent causal tree

Pendulum · forced-down swing-up tree

Acrobot · energy swing-up tree

MiniGrid DoorKey · rule memory tree

Atari Pong · pixel causal-tree smoke

Box2D causal-tree 成功版 Think teacher。

CarRacing first-lap memory sprint tree

CarRacing comparison · speed memory baseline

BipedalWalker seed 8

BipedalWalker seed 10

BipedalWalker seed 18

BipedalWalker seed 33

MountainCar 參數變體關卡影片。

Base physics

Far goal

Weak motor

High gravity

Weak motor + high gravity

MountainCar 地形變形關卡。

Classic sine terrain

Double valley

Steep right climb

Wavy bumps

Long slope

v1 causal-tree artifact 數據。