ECHO: Terminal-Agenten lernen Weltmodelle kostenlos
ECHO: Terminal Agents Learn World Models for Free
May 23, 2026
Autoren: Vaishnavi Shrivastava, Piero Kauffmann, Ahmed Awadallah, Dimitris Papailiopoulos
cs.AI
Zusammenfassung
CLI-Agenten sind die nächste Entsprechung zu einer verkörperten Umgebung für Sprachmodelle: Das Modell gibt Befehle aus, das Terminal führt sie aus, und der zurückgegebene Strom – stdout, Fehler, Dateien, Logs und Traces – hält die Konsequenzen fest. Wir argumentieren, dass dieser Strom ein Supervisionssignal darstellt, aber das Standard-Agenten-RL verwirft ihn: GRPO-artiges Training aktualisiert Aktions-Token mit spärlichen ergebnisbezogenen Belohnungen, während die bereits im Rollout enthaltenen Umgebungsantworten ignoriert werden. Fehlgeschlagene Rollouts liefern trotz reichhaltiger Hinweise auf das Reaktionsverhalten der Umgebung kaum Policy-Gradient-Signal. Wir stellen ECHO (Environment Cross-entropy Hybrid Objective) vor, ein Hybridziel, das den standardmäßigen Policy-Gradient-Verlust auf Aktions-Token mit einem Hilfsverlust kombiniert, der die Policy darauf trainiert, aus ihren eigenen Aktionen resultierende Umgebungsbeobachtungstoken vorherzusagen. ECHO nutzt denselben Vorwärtsdurchlauf wie GRPO, erfordert keine zusätzlichen Rollouts und verwandelt Terminal-Feedback in dichte Überwachung für alle Rollouts. ECHO verdoppelt den GRPO pass@1 auf TerminalBench-2.0: Qwen3-8B verbessert sich von 2,70 % auf 5,17 %, und Qwen3-14B von 5,17 % auf 10,79 %. ECHO erzeugt zudem Policys, die die Terminaldynamik besser vorhersagen, selbst auf Trajektorien, die sie nicht selbst generiert haben: Über zurückgehaltene Rollouts hinweg reduziert es die Umgebungstoken-Kreuzentropie drastisch, während GRPO allein sie kaum verändert. Ausgehend vom Basis-Modell Qwen3-8B erreicht ECHO auf zurückgehaltenen Terminalaufgaben ohne Experten-Demonstrationen die Leistung von Expert-SFT-gefolgt-von-GRPO und stellt auf TerminalBench-2.0 etwa die Hälfte des Initialisierungsvorteils durch Expert-SFT wieder her. In einigen Fällen ermöglicht der Umgebungsvorhersageverlust allein eine verifiziererlose Selbstverbesserung, sodass Policys sich durch reines Lernen aus Umgebungsinteraktionen auf unbekannten OOD-Aufgaben verbessern können. Zusammengenommen deuten diese Ergebnisse darauf hin, dass Umgebungsbeobachtungen nicht nur Kontext für zukünftige Aktionen sind, sondern ein dichtes, on-policy-Supervisionssignal, das in jedem Rollout bereits vorhanden ist.
English
CLI agents are the closest thing language models have to an embodied setting: the model emits commands, the terminal executes them, and the returned stream -- stdout, errors, files, logs, and traces -- records the consequences. We argue that this stream is a supervision signal, but standard agent RL discards it: GRPO-style training updates action tokens with sparse outcome-level rewards while ignoring environment responses already in the rollout. Failed rollouts provide little policy-gradient signal despite containing rich evidence about how the environment responds. We introduce ECHO (Environment Cross-entropy Hybrid Objective), a hybrid objective that combines the standard policy-gradient loss on action tokens with an auxiliary loss that trains the policy to predict environment observation tokens resulting from its own actions. ECHO reuses the same forward pass as GRPO, requires no additional rollouts, and turns terminal feedback into dense supervision for all rollouts. ECHO doubles GRPO pass@1 on TerminalBench-2.0: Qwen3-8B improves from 2.70% to 5.17%, and Qwen3-14B from 5.17% to 10.79%. ECHO also produces policies that better predict terminal dynamics, even on trajectories they did not generate: across held-out rollouts, it sharply reduces environment-token cross-entropy while GRPO alone barely changes it. From base Qwen3-8B, ECHO matches expert-SFT-then-GRPO performance on held-out terminal tasks without expert demonstrations, and recovers roughly half of the expert-SFT initialization benefit on TerminalBench-2.0. In some settings, the environment prediction loss alone enables verifier-free self-improvement, allowing policies to improve on unseen OOD tasks by learning only from environment interactions. Together, these results suggest that environment observations are not merely context for future actions, but a dense, on-policy supervision signal already present in every rollout.