ECHO：ターミナルエージェントは世界モデルを無料で学習する

要旨

CLIエージェントは、言語モデルにとって最も身体性を備えた設定に近い存在である。すなわち、モデルがコマンドを発し、端末がそれを実行し、返ってくるストリーム（stdout、エラー、ファイル、ログ、トレース）がその結果を記録する。本稿では、このストリームが監視信号であると主張するが、標準的なエージェント強化学習（RL）はそれを破棄している。GRPO形式の学習では、スパースな結果レベルの報酬でアクショントークンを更新する一方で、ロールアウト中に得られる環境応答は無視される。失敗したロールアウトは、環境がどのように応答するかについての豊富な証拠を含んでいるにもかかわらず、ほとんどポリシー勾配信号を提供しない。本稿では、ECHO（Environment Cross-entropy Hybrid Objective）を導入する。これは、アクショントークンに対する標準的なポリシー勾配損失と、政策自身の行動に起因する環境観測トークンを予測するように訓練する補助損失とを組み合わせたハイブリッド目的関数である。ECHOはGRPOと同じ前方パスを再利用し、追加のロールアウトを必要とせず、端末フィードバックをすべてのロールアウトに対する密な監視に変換する。ECHOはTerminalBench-2.0においてGRPOのpass@1を2倍にする。すなわち、Qwen3-8Bでは2.70%から5.17%へ、Qwen3-14Bでは5.17%から10.79%へ向上する。また、ECHOは、自身が生成したものではない軌跡においても、端末ダイナミクスをよりよく予測する政策を生み出す。保持されたロールアウト全体において、ECHOは環境トークンの交差エントロピーを大幅に減少させる一方、GRPO単独ではほとんど変化しない。ベースのQwen3-8Bから、ECHOは専門家デモンストレーションなしで、保持された端末タスクにおいて専門家SFT後のGRPOと同等の性能を達成し、TerminalBench-2.0における専門家SFT初期化の利点の約半分を回復する。いくつかの設定では、環境予測損失のみで検証器なしの自己改善が可能となり、政策が環境相互作用からのみ学習することで、未知のOODタスクにおいて改善することができる。これらの結果は総合して、環境観測は単なる将来の行動のための文脈ではなく、すでにあらゆるロールアウトに存在する密なオン・ポリシー監視信号であることを示唆している。

English

CLI agents are the closest thing language models have to an embodied setting: the model emits commands, the terminal executes them, and the returned stream -- stdout, errors, files, logs, and traces -- records the consequences. We argue that this stream is a supervision signal, but standard agent RL discards it: GRPO-style training updates action tokens with sparse outcome-level rewards while ignoring environment responses already in the rollout. Failed rollouts provide little policy-gradient signal despite containing rich evidence about how the environment responds. We introduce ECHO (Environment Cross-entropy Hybrid Objective), a hybrid objective that combines the standard policy-gradient loss on action tokens with an auxiliary loss that trains the policy to predict environment observation tokens resulting from its own actions. ECHO reuses the same forward pass as GRPO, requires no additional rollouts, and turns terminal feedback into dense supervision for all rollouts. ECHO doubles GRPO pass@1 on TerminalBench-2.0: Qwen3-8B improves from 2.70% to 5.17%, and Qwen3-14B from 5.17% to 10.79%. ECHO also produces policies that better predict terminal dynamics, even on trajectories they did not generate: across held-out rollouts, it sharply reduces environment-token cross-entropy while GRPO alone barely changes it. From base Qwen3-8B, ECHO matches expert-SFT-then-GRPO performance on held-out terminal tasks without expert demonstrations, and recovers roughly half of the expert-SFT initialization benefit on TerminalBench-2.0. In some settings, the environment prediction loss alone enables verifier-free self-improvement, allowing policies to improve on unseen OOD tasks by learning only from environment interactions. Together, these results suggest that environment observations are not merely context for future actions, but a dense, on-policy supervision signal already present in every rollout.