ECHO: Terminale agenten leren wereldmodellen zonder extra kosten

Samenvatting

CLI-agents zijn het dichtst dat taalmodellen bij een belichaamde omgeving komen: het model geeft commando's, de terminal voert ze uit, en de geretourneerde stroom – stdout, fouten, bestanden, logs en traces – legt de gevolgen vast. Wij stellen dat deze stroom een supervisiesignaal is, maar standaard agent RL negeert het: GRPO-stijl training update actietokens met schaarse uitkomst-niveau beloningen terwijl omgevingsresponsen die al in de rollout aanwezig zijn, worden genegeerd. Mislukte rollouts geven weinig beleidsgradiëntsignaal ondanks dat ze rijke informatie bevatten over hoe de omgeving reageert. We introduceren ECHO (Environment Cross-entropy Hybrid Objective), een hybride doelstelling die de standaard beleidsgradiëntverlies op actietokens combineert met een hulpverlies dat het beleid traint om omgevingsobservatietokens te voorspellen die het gevolg zijn van zijn eigen acties. ECHO hergebruikt dezelfde forward pass als GRPO, vereist geen extra rollouts, en zet terminalfeedback om in dichte supervisie voor alle rollouts. ECHO verdubbelt GRPO pass@1 op TerminalBench-2.0: Qwen3-8B verbetert van 2,70% naar 5,17%, en Qwen3-14B van 5,17% naar 10,79%. ECHO produceert ook beleid dat terminaldynamiek beter voorspelt, zelfs op trajecten die het niet heeft gegenereerd: over uitgesloten rollouts heen vermindert het de omgevingstoken-cross-entropie sterk terwijl GRPO alleen die nauwelijks verandert. Vanaf basis Qwen3-8B evenaart ECHO de expert-SFT-gevolgd-door-GRPO-prestatie op uitgesloten terminaltaken zonder expertdemonstraties, en herstelt ongeveer de helft van het expert-SFT-initialisatievoordeel op TerminalBench-2.0. In sommige instellingen stelt het omgevingsvoorspellingsverlies alleen al verifier-vrije zelfverbetering mogelijk, waardoor beleid kan verbeteren op ongeziene OOD-taken door alleen te leren van omgevingsinteracties. Samen suggereren deze resultaten dat omgevingsobservaties niet slechts context zijn voor toekomstige acties, maar een dicht, on-policy supervisiesignaal dat al aanwezig is in elke rollout.

English

CLI agents are the closest thing language models have to an embodied setting: the model emits commands, the terminal executes them, and the returned stream -- stdout, errors, files, logs, and traces -- records the consequences. We argue that this stream is a supervision signal, but standard agent RL discards it: GRPO-style training updates action tokens with sparse outcome-level rewards while ignoring environment responses already in the rollout. Failed rollouts provide little policy-gradient signal despite containing rich evidence about how the environment responds. We introduce ECHO (Environment Cross-entropy Hybrid Objective), a hybrid objective that combines the standard policy-gradient loss on action tokens with an auxiliary loss that trains the policy to predict environment observation tokens resulting from its own actions. ECHO reuses the same forward pass as GRPO, requires no additional rollouts, and turns terminal feedback into dense supervision for all rollouts. ECHO doubles GRPO pass@1 on TerminalBench-2.0: Qwen3-8B improves from 2.70% to 5.17%, and Qwen3-14B from 5.17% to 10.79%. ECHO also produces policies that better predict terminal dynamics, even on trajectories they did not generate: across held-out rollouts, it sharply reduces environment-token cross-entropy while GRPO alone barely changes it. From base Qwen3-8B, ECHO matches expert-SFT-then-GRPO performance on held-out terminal tasks without expert demonstrations, and recovers roughly half of the expert-SFT initialization benefit on TerminalBench-2.0. In some settings, the environment prediction loss alone enables verifier-free self-improvement, allowing policies to improve on unseen OOD tasks by learning only from environment interactions. Together, these results suggest that environment observations are not merely context for future actions, but a dense, on-policy supervision signal already present in every rollout.