EvoTrainer: Совместная эволюция политик LLM и тренировочных обвязок для автономного агентного обучения с подкреплением

Аннотация

Автономное обучение LLM часто рассматривается как поиск рецептов, что оставляет обучающую обвязку в значительной степени статичной. Это ограничение становится особенно заметным в агентном RL, где сдвигающиеся узкие места и скалярные вознаграждения маскируют разнообразные режимы отказа. Мы представляем EvoTrainer — автономную обучающую framework, которая совместно эволюционирует политики LLM и обучающие обвязки на основе эмпирической обратной связи: она диагностирует evidence на уровне разверток, пересматривает диагностики, проводит бэктестинг вмешательств и накапливает повторно используемые навыки. Оценённый на задачах математического рассуждения, генерации кода для соревновательного программирования и разработки программного обеспечения на уровне репозиториев, EvoTrainer достигает или превосходит человеческие эталонные RL-подходы при одинаковых данных, кодовой базе и протоколе оценки, при этом наибольший прирост наблюдается в долгосрочной агентной разработке ПО. Анализ траекторий показывает, что сохраняемые стратегии расходятся между доменами, развивающиеся диагностики предотвращают продвижение невалидных высокооцененных ветвей, а повторно используемые навыки формируют последующий поиск. Автономное RL для LLM должно выйти за рамки поиска рецептов в сторону совместной эволюции политик и обучающих обвязок, которые их интерпретируют.

English

Autonomous LLM training is often framed as recipe search, which leaves the training harness largely static. This limitation sharpens in agentic RL, where shifting bottlenecks and scalar rewards mask diverse failure modes. We introduce EvoTrainer, an autonomous training framework that co-evolves LLM policies and training-side harnesses through empirical feedback: it diagnoses rollout-level evidence, revises diagnostics, backtests interventions, and accumulates reusable skills. Evaluated on mathematical reasoning, competitive-programming code generation, and repository-level software engineering, EvoTrainer matches or exceeds the human-engineered RL references under the same data, codebase, and evaluation protocol, with the largest gain on long-horizon agentic SWE. Trajectory analyses show that retained strategies diverge across domains, evolving diagnostics prevent invalid high-scoring branches from being promoted, and reusable skills shape later search. Autonomous LLM RL should move beyond recipe search toward joint evolution of policies and the training harnesses that interpret them.