EvoTrainer: Coevolução de Políticas de LLM e Estruturas de Treinamento para Aprendizado por Reforço Autônomo Agêntico

Resumo

O treinamento autônomo de LLMs é frequentemente enquadrado como busca de receitas, o que deixa a estrutura de treinamento em grande parte estática. Essa limitação torna-se mais evidente no RL agentivo, onde gargalos mutáveis e recompensas escalares mascaram diversos modos de falha. Apresentamos o EvoTrainer, uma estrutura de treinamento autônoma que co-evolui políticas de LLM e estruturas do lado do treinamento por meio de feedback empírico: ela diagnostica evidências em nível de rollout, revisa diagnósticos, testa retrospectivamente intervenções e acumula habilidades reutilizáveis. Avaliado em raciocínio matemático, geração de código para programação competitiva e engenharia de software em nível de repositório, o EvoTrainer iguala ou supera as referências de RL projetadas por humanos sob os mesmos dados, base de código e protocolo de avaliação, com o maior ganho em SWE agentivo de longo horizonte. Análises de trajetória mostram que as estratégias retidas divergem entre domínios, diagnósticos em evolução impedem que ramificações inválidas com alta pontuação sejam promovidas e habilidades reutilizáveis moldam a busca posterior. O RL autônomo de LLMs deve ir além da busca de receitas em direção à evolução conjunta das políticas e das estruturas de treinamento que as interpretam.

English

Autonomous LLM training is often framed as recipe search, which leaves the training harness largely static. This limitation sharpens in agentic RL, where shifting bottlenecks and scalar rewards mask diverse failure modes. We introduce EvoTrainer, an autonomous training framework that co-evolves LLM policies and training-side harnesses through empirical feedback: it diagnoses rollout-level evidence, revises diagnostics, backtests interventions, and accumulates reusable skills. Evaluated on mathematical reasoning, competitive-programming code generation, and repository-level software engineering, EvoTrainer matches or exceeds the human-engineered RL references under the same data, codebase, and evaluation protocol, with the largest gain on long-horizon agentic SWE. Trajectory analyses show that retained strategies diverge across domains, evolving diagnostics prevent invalid high-scoring branches from being promoted, and reusable skills shape later search. Autonomous LLM RL should move beyond recipe search toward joint evolution of policies and the training harnesses that interpret them.