ChatPaper.aiChatPaper

ECHO: Терминальные агенты бесплатно изучают мировые модели

ECHO: Terminal Agents Learn World Models for Free

May 23, 2026
Авторы: Vaishnavi Shrivastava, Piero Kauffmann, Ahmed Awadallah, Dimitris Papailiopoulos
cs.AI

Аннотация

CLI-агенты — это ближайшее, что есть у языковых моделей к воплощённой среде: модель генерирует команды, терминал их выполняет, а возвращаемый поток — stdout, ошибки, файлы, логи и трассы — фиксирует последствия. Мы утверждаем, что этот поток является сигналом супервизии, но стандартный RL для агентов отбрасывает его: обучение в стиле GRPO обновляет токены действий с редкими наградами на уровне результата, игнорируя ответы среды, уже присутствующие в развёртке. Неудачные развёртки дают слабый сигнал градиента политики, несмотря на то, что содержат богатые данные о том, как среда реагирует. Мы представляем ECHO (Environment Cross-entropy Hybrid Objective — гибридная цель на основе кросс-энтропии среды), гибридную функцию потерь, которая объединяет стандартную потерю градиента политики по токенам действий с вспомогательной потерей, обучающей политику предсказывать токены наблюдений среды, возникающие в результате её собственных действий. ECHO использует тот же прямой проход, что и GRPO, не требует дополнительных развёрток и превращает обратную связь от терминала в плотный сигнал супервизии для всех развёрток. ECHO удваивает показатель pass@1 по сравнению с GRPO на TerminalBench-2.0: Qwen3-8B улучшается с 2,70% до 5,17%, а Qwen3-14B — с 5,17% до 10,79%. ECHO также даёт политики, которые лучше предсказывают динамику терминала, даже на траекториях, которые они не генерировали: на отложенных развёртках он резко снижает кросс-энтропию токенов среды, в то время как один GRPO почти не меняет её. Начиная с базовой Qwen3-8B, ECHO достигает производительности, эквивалентной комбинации эксперт-SFT с последующим GRPO, на отложенных терминальных задачах без экспертных демонстраций и восстанавливает примерно половину преимущества инициализации эксперт-SFT на TerminalBench-2.0. В некоторых настройках одна лишь потеря предсказания среды обеспечивает самосовершенствование без верификатора, позволяя политикам улучшаться на невидимых ранее задачах OOD, обучаясь только на взаимодействиях со средой. В совокупности эти результаты показывают, что наблюдения среды — это не просто контекст для будущих действий, а плотный сигнал супервизии, основанный на текущей политике, который уже присутствует в каждой развёртке.
English
CLI agents are the closest thing language models have to an embodied setting: the model emits commands, the terminal executes them, and the returned stream -- stdout, errors, files, logs, and traces -- records the consequences. We argue that this stream is a supervision signal, but standard agent RL discards it: GRPO-style training updates action tokens with sparse outcome-level rewards while ignoring environment responses already in the rollout. Failed rollouts provide little policy-gradient signal despite containing rich evidence about how the environment responds. We introduce ECHO (Environment Cross-entropy Hybrid Objective), a hybrid objective that combines the standard policy-gradient loss on action tokens with an auxiliary loss that trains the policy to predict environment observation tokens resulting from its own actions. ECHO reuses the same forward pass as GRPO, requires no additional rollouts, and turns terminal feedback into dense supervision for all rollouts. ECHO doubles GRPO pass@1 on TerminalBench-2.0: Qwen3-8B improves from 2.70% to 5.17%, and Qwen3-14B from 5.17% to 10.79%. ECHO also produces policies that better predict terminal dynamics, even on trajectories they did not generate: across held-out rollouts, it sharply reduces environment-token cross-entropy while GRPO alone barely changes it. From base Qwen3-8B, ECHO matches expert-SFT-then-GRPO performance on held-out terminal tasks without expert demonstrations, and recovers roughly half of the expert-SFT initialization benefit on TerminalBench-2.0. In some settings, the environment prediction loss alone enables verifier-free self-improvement, allowing policies to improve on unseen OOD tasks by learning only from environment interactions. Together, these results suggest that environment observations are not merely context for future actions, but a dense, on-policy supervision signal already present in every rollout.