EvoTrainer : Co-évolution des Politiques de LLM et des Harnais d'Entraînement pour l'Apprentissage par Renforcement Agentique Autonome

Résumé

L'entraînement autonome des LLM est souvent envisagé comme une recherche de recettes, ce qui laisse le cadre d'entraînement largement statique. Cette limitation devient cruciale dans le RL agentique, où des goulots d'étranglement changeants et des récompenses scalaires masquent divers modes d'échec. Nous introduisons EvoTrainer, un cadre d'entraînement autonome qui co-évolue les politiques des LLM et les cadres d'entraînement via un retour empirique : il diagnostique les preuves au niveau des rollouts, révise les diagnostics, effectue des backtests d'interventions et accumule des compétences réutilisables. Évalué sur le raisonnement mathématique, la génération de code pour la programmation compétitive et l'ingénierie logicielle au niveau du dépôt, EvoTrainer égale ou dépasse les références RL conçues par l'homme avec les mêmes données, codebase et protocole d'évaluation, le gain le plus important étant observé sur le SWE agentique à long horizon. Les analyses de trajectoires montrent que les stratégies retenues divergent selon les domaines, que les diagnostics évolutifs empêchent la promotion de branches invalides à score élevé, et que les compétences réutilisables façonnent les recherches ultérieures. La RL autonome pour LLM devrait dépasser la recherche de recettes pour évoluer vers une évolution conjointe des politiques et des cadres d'entraînement qui les interprètent.

English

Autonomous LLM training is often framed as recipe search, which leaves the training harness largely static. This limitation sharpens in agentic RL, where shifting bottlenecks and scalar rewards mask diverse failure modes. We introduce EvoTrainer, an autonomous training framework that co-evolves LLM policies and training-side harnesses through empirical feedback: it diagnoses rollout-level evidence, revises diagnostics, backtests interventions, and accumulates reusable skills. Evaluated on mathematical reasoning, competitive-programming code generation, and repository-level software engineering, EvoTrainer matches or exceeds the human-engineered RL references under the same data, codebase, and evaluation protocol, with the largest gain on long-horizon agentic SWE. Trajectory analyses show that retained strategies diverge across domains, evolving diagnostics prevent invalid high-scoring branches from being promoted, and reusable skills shape later search. Autonomous LLM RL should move beyond recipe search toward joint evolution of policies and the training harnesses that interpret them.