ECHO: Agentes Terminales Aprenden Modelos del Mundo de Forma Gratuita
ECHO: Terminal Agents Learn World Models for Free
May 23, 2026
Autores: Vaishnavi Shrivastava, Piero Kauffmann, Ahmed Awadallah, Dimitris Papailiopoulos
cs.AI
Resumen
Los agentes CLI son lo más parecido a un entorno corpóreo que tienen los modelos de lenguaje: el modelo emite comandos, el terminal los ejecuta y el flujo devuelto —stdout, errores, archivos, registros y trazas— registra las consecuencias. Sostenemos que este flujo constituye una señal de supervisión, pero el RL estándar para agentes lo descarta: el entrenamiento estilo GRPO actualiza los tokens de acción con recompensas escasas a nivel de resultado, ignorando las respuestas del entorno que ya están en el rollout. Los rollouts fallidos aportan poca señal de gradiente de política a pesar de contener evidencia rica sobre cómo responde el entorno. Introducimos ECHO (Environment Cross-entropy Hybrid Objective), un objetivo híbrido que combina la pérdida estándar de gradiente de política sobre los tokens de acción con una pérdida auxiliar que entrena a la política para predecir los tokens de observación del entorno resultantes de sus propias acciones. ECHO reutiliza el mismo pase hacia adelante que GRPO, no requiere rollouts adicionales y convierte la retroalimentación del terminal en supervisión densa para todos los rollouts. ECHO duplica el pass@1 de GRPO en TerminalBench-2.0: Qwen3-8B mejora del 2.70% al 5.17%, y Qwen3-14B del 5.17% al 10.79%. ECHO también produce políticas que predicen mejor la dinámica del terminal, incluso en trayectorias que no generaron: en rollouts fuera de la muestra, reduce marcadamente la entropía cruzada de los tokens del entorno, mientras que GRPO apenas la modifica. Partiendo de Qwen3-8B base, ECHO iguala el rendimiento de un SFT experto seguido de GRPO en tareas de terminal fuera de la muestra, sin necesidad de demostraciones expertas, y recupera aproximadamente la mitad del beneficio de la inicialización con SFT experto en TerminalBench-2.0. En algunos entornos, la pérdida de predicción del entorno por sí sola permite una auto-mejora sin verificador, haciendo que las políticas mejoren en tareas OOD no vistas al aprender únicamente de las interacciones con el entorno. En conjunto, estos resultados sugieren que las observaciones del entorno no son meramente contexto para acciones futuras, sino una señal de supervisión densa y on-policy ya presente en cada rollout.
English
CLI agents are the closest thing language models have to an embodied setting: the model emits commands, the terminal executes them, and the returned stream -- stdout, errors, files, logs, and traces -- records the consequences. We argue that this stream is a supervision signal, but standard agent RL discards it: GRPO-style training updates action tokens with sparse outcome-level rewards while ignoring environment responses already in the rollout. Failed rollouts provide little policy-gradient signal despite containing rich evidence about how the environment responds. We introduce ECHO (Environment Cross-entropy Hybrid Objective), a hybrid objective that combines the standard policy-gradient loss on action tokens with an auxiliary loss that trains the policy to predict environment observation tokens resulting from its own actions. ECHO reuses the same forward pass as GRPO, requires no additional rollouts, and turns terminal feedback into dense supervision for all rollouts. ECHO doubles GRPO pass@1 on TerminalBench-2.0: Qwen3-8B improves from 2.70% to 5.17%, and Qwen3-14B from 5.17% to 10.79%. ECHO also produces policies that better predict terminal dynamics, even on trajectories they did not generate: across held-out rollouts, it sharply reduces environment-token cross-entropy while GRPO alone barely changes it. From base Qwen3-8B, ECHO matches expert-SFT-then-GRPO performance on held-out terminal tasks without expert demonstrations, and recovers roughly half of the expert-SFT initialization benefit on TerminalBench-2.0. In some settings, the environment prediction loss alone enables verifier-free self-improvement, allowing policies to improve on unseen OOD tasks by learning only from environment interactions. Together, these results suggest that environment observations are not merely context for future actions, but a dense, on-policy supervision signal already present in every rollout.