Бесконечные терминалы: Масштабирование сред обучения с подкреплением для терминальных агентов
Endless Terminals: Scaling RL Environments for Terminal Agents
January 23, 2026
Авторы: Kanishk Gandhi, Shivam Garg, Noah D. Goodman, Dimitris Papailiopoulos
cs.AI
Аннотация
Среда является узким местом для самообучающихся агентов. Современные бенчмарки для терминалов создавались для оценки, а не для обучения; обучение с подкреплением требует масштабируемого конвейера, а не просто набора данных. Мы представляем Endless Terminals — полностью автономный конвейер, процедурно генерирующий задачи для работы в терминале без участия человека. Конвейер состоит из четырех этапов: генерация разнообразных описаний задач, создание и валидация контейнеризованных сред, создание тестов на завершение и фильтрация по решаемости. В результате работы конвейера мы получили 3255 задач, охватывающих файловые операции, управление логами, обработку данных, написание скриптов и операции с базами данных. Мы обучали агентов с помощью стандартного PPO с бинарными наградами на уровне эпизода и минимальным циклом взаимодействия: без поиска, многопользовательской координации или специализированных инструментов. Несмотря на эту простоту, модели, обученные на Endless Terminals, демонстрируют значительный прогресс: на нашем отложенном dev-наборе Llama-3.2-3B улучшила результат с 4.0% до 18.2%, Qwen2.5-7B — с 10.7% до 53.3%, а Qwen3-8B-openthinker-sft — с 42.6% до 59.0%. Эти улучшения переносятся на бенчмарки, созданные человеком: модели, обученные на Endless Terminals, показывают существенный рост на отложенных человеко-курируемых бенчмарках: на TerminalBench 2.0 Llama-3.2-3B улучшила результат с 0.0% до 2.2%, Qwen2.5-7B — с 2.2% до 3.4%, а Qwen3-8B-openthinker-sft — с 1.1% до 6.7%, в каждом случае превосходя альтернативные подходы, включая модели с более сложными агентскими каркасами. Эти результаты демонстрируют, что простой метод RL оказывается успешным, когда среды масштабируются.
English
Environments are the bottleneck for self-improving agents. Current terminal benchmarks were built for evaluation, not training; reinforcement learning requires a scalable pipeline, not just a dataset. We introduce Endless Terminals, a fully autonomous pipeline that procedurally generates terminal-use tasks without human annotation. The pipeline has four stages: generating diverse task descriptions, building and validating containerized environments, producing completion tests, and filtering for solvability. From this pipeline we obtain 3255 tasks spanning file operations, log management, data processing, scripting, and database operations. We train agents using vanilla PPO with binary episode level rewards and a minimal interaction loop: no retrieval, multi-agent coordination, or specialized tools. Despite this simplicity, models trained on Endless Terminals show substantial gains: on our held-out dev set, Llama-3.2-3B improves from 4.0% to 18.2%, Qwen2.5-7B from 10.7% to 53.3%, and Qwen3-8B-openthinker-sft from 42.6% to 59.0%. These improvements transfer to human-curated benchmarks: models trained on Endless Terminals show substantial gains on held out human curated benchmarks: on TerminalBench 2.0, Llama-3.2-3B improves from 0.0% to 2.2%, Qwen2.5-7B from 2.2% to 3.4%, and Qwen3-8B-openthinker-sft from 1.1% to 6.7%, in each case outperforming alternative approaches including models with more complex agentic scaffolds. These results demonstrate that simple RL succeeds when environments scale.