ChatPaper.aiChatPaper

ECHO: Agentes Terminais Aprendem Modelos do Mundo Gratuitamente

ECHO: Terminal Agents Learn World Models for Free

May 23, 2026
Autores: Vaishnavi Shrivastava, Piero Kauffmann, Ahmed Awadallah, Dimitris Papailiopoulos
cs.AI

Resumo

Agentes CLI são a aproximação mais próxima que modelos de linguagem têm de um ambiente corporificado: o modelo emite comandos, o terminal os executa e o fluxo retornado — stdout, erros, arquivos, logs e rastros — registra as consequências. Argumentamos que esse fluxo constitui um sinal de supervisão, mas o RL padrão de agentes o descarta: o treinamento no estilo GRPO atualiza tokens de ação com recompensas esparsas em nível de resultado, ignorando as respostas do ambiente já presentes no rollout. Rollouts fracassados fornecem pouco sinal de gradiente de política, apesar de conterem evidências ricas sobre como o ambiente responde. Apresentamos ECHO (Environment Cross-entropy Hybrid Objective), uma função objetivo híbrida que combina a perda padrão de gradiente de política nos tokens de ação com uma perda auxiliar que treina a política a prever os tokens de observação do ambiente resultantes de suas próprias ações. O ECHO reutiliza a mesma passagem direta do GRPO, não requer rollouts adicionais e transforma o feedback do terminal em supervisão densa para todos os rollouts. O ECHO dobra o pass@1 do GRPO no TerminalBench-2.0: Qwen3-8B melhora de 2,70% para 5,17%, e Qwen3-14B de 5,17% para 10,79%. O ECHO também produz políticas que melhor preveem a dinâmica do terminal, mesmo em trajetórias que não geraram: em rollouts separados, reduz drasticamente a entropia cruzada dos tokens do ambiente, enquanto o GRPO sozinho mal a altera. Partindo do Qwen3-8B base, o ECHO iguala o desempenho de expert-SFT seguido de GRPO em tarefas de terminal separadas, sem necessidade de demonstrações de especialistas, e recupera aproximadamente metade do benefício da inicialização por expert-SFT no TerminalBench-2.0. Em algumas configurações, apenas a perda de predição do ambiente possibilita autoaperfeiçoamento sem verificador, permitindo que políticas melhorem em tarefas OOD não vistas ao aprender apenas com interações com o ambiente. Em conjunto, esses resultados sugerem que as observações do ambiente não são meramente contexto para ações futuras, mas um sinal de supervisão denso e on-policy já presente em todo rollout.
English
CLI agents are the closest thing language models have to an embodied setting: the model emits commands, the terminal executes them, and the returned stream -- stdout, errors, files, logs, and traces -- records the consequences. We argue that this stream is a supervision signal, but standard agent RL discards it: GRPO-style training updates action tokens with sparse outcome-level rewards while ignoring environment responses already in the rollout. Failed rollouts provide little policy-gradient signal despite containing rich evidence about how the environment responds. We introduce ECHO (Environment Cross-entropy Hybrid Objective), a hybrid objective that combines the standard policy-gradient loss on action tokens with an auxiliary loss that trains the policy to predict environment observation tokens resulting from its own actions. ECHO reuses the same forward pass as GRPO, requires no additional rollouts, and turns terminal feedback into dense supervision for all rollouts. ECHO doubles GRPO pass@1 on TerminalBench-2.0: Qwen3-8B improves from 2.70% to 5.17%, and Qwen3-14B from 5.17% to 10.79%. ECHO also produces policies that better predict terminal dynamics, even on trajectories they did not generate: across held-out rollouts, it sharply reduces environment-token cross-entropy while GRPO alone barely changes it. From base Qwen3-8B, ECHO matches expert-SFT-then-GRPO performance on held-out terminal tasks without expert demonstrations, and recovers roughly half of the expert-SFT initialization benefit on TerminalBench-2.0. In some settings, the environment prediction loss alone enables verifier-free self-improvement, allowing policies to improve on unseen OOD tasks by learning only from environment interactions. Together, these results suggest that environment observations are not merely context for future actions, but a dense, on-policy supervision signal already present in every rollout.