ECHO : Les agents terminaux apprennent des modèles du monde gratuitement

Résumé

Les agents CLI sont ce que les modèles de langage offrent de plus proche d'un contexte incarné : le modèle émet des commandes, le terminal les exécute, et le flux renvoyé – sortie standard, erreurs, fichiers, journaux et traces – enregistre les conséquences. Nous soutenons que ce flux constitue un signal de supervision, mais l'apprentissage par renforcement (RL) standard des agents le néglige : l'entraînement de type GRPO met à jour les tokens d'action avec des récompenses éparses au niveau du résultat, tout en ignorant les réponses de l'environnement déjà présentes dans le déploiement. Les déploiements échoués fournissent peu de signal de gradient de politique malgré la richesse des informations sur la manière dont l'environnement réagit. Nous introduisons ECHO (Objectif Hybride d'Entropie Croisée Environnementale), un objectif hybride qui combine la perte standard de gradient de politique sur les tokens d'action avec une perte auxiliaire entraînant la politique à prédire les tokens d'observation de l'environnement résultant de ses propres actions. ECHO réutilise la même passe avant que GRPO, ne nécessite aucun déploiement supplémentaire et transforme le retour terminal en supervision dense pour tous les déploiements. ECHO double le pass@1 de GRPO sur TerminalBench-2.0 : Qwen3-8B passe de 2,70 % à 5,17 %, et Qwen3-14B de 5,17 % à 10,79 %. ECHO produit également des politiques qui prédisent mieux la dynamique terminale, même sur des trajectoires qu'elles n'ont pas générées : sur des déploiements exclus, elle réduit fortement l'entropie croisée des tokens environnementaux, tandis que GRPO seul ne la modifie guère. À partir de Qwen3-8B de base, ECHO atteint les performances d'expert-SFT suivi de GRPO sur des tâches terminales exclues sans démonstrations expertes, et récupère environ la moitié du bénéfice d'initialisation de l'expert-SFT sur TerminalBench-2.0. Dans certains contextes, la seule perte de prédiction environnementale permet une auto-amélioration sans vérificateur, autorisant les politiques à progresser sur des tâches OOD inédites en apprenant uniquement des interactions avec l'environnement. Ensemble, ces résultats suggèrent que les observations environnementales ne sont pas simplement un contexte pour les actions futures, mais bien un signal de supervision dense et sur-politique déjà présent dans chaque déploiement.

English

CLI agents are the closest thing language models have to an embodied setting: the model emits commands, the terminal executes them, and the returned stream -- stdout, errors, files, logs, and traces -- records the consequences. We argue that this stream is a supervision signal, but standard agent RL discards it: GRPO-style training updates action tokens with sparse outcome-level rewards while ignoring environment responses already in the rollout. Failed rollouts provide little policy-gradient signal despite containing rich evidence about how the environment responds. We introduce ECHO (Environment Cross-entropy Hybrid Objective), a hybrid objective that combines the standard policy-gradient loss on action tokens with an auxiliary loss that trains the policy to predict environment observation tokens resulting from its own actions. ECHO reuses the same forward pass as GRPO, requires no additional rollouts, and turns terminal feedback into dense supervision for all rollouts. ECHO doubles GRPO pass@1 on TerminalBench-2.0: Qwen3-8B improves from 2.70% to 5.17%, and Qwen3-14B from 5.17% to 10.79%. ECHO also produces policies that better predict terminal dynamics, even on trajectories they did not generate: across held-out rollouts, it sharply reduces environment-token cross-entropy while GRPO alone barely changes it. From base Qwen3-8B, ECHO matches expert-SFT-then-GRPO performance on held-out terminal tasks without expert demonstrations, and recovers roughly half of the expert-SFT initialization benefit on TerminalBench-2.0. In some settings, the environment prediction loss alone enables verifier-free self-improvement, allowing policies to improve on unseen OOD tasks by learning only from environment interactions. Together, these results suggest that environment observations are not merely context for future actions, but a dense, on-policy supervision signal already present in every rollout.