EvoTrainer: Co-evolueren van LLM-beleid en Trainingsharnassen voor Autonoom Agentisch Reinforcement Learning

Samenvatting

Autonome LLM-training wordt vaak omlijst als een receptzoektocht, waardoor het trainingsharnas grotendeels statisch blijft. Deze beperking wordt scherper in agentische RL, waar verschuivende knelpunten en scalaire beloningen diverse faalwijzen verbergen. We introduceren EvoTrainer, een autonoom trainingsframework dat LLM-beleid en trainingszijde harnassen co-evolueert door middel van empirische feedback: het diagnosticeert rollout-niveau bewijs, herziet diagnostiek, test interventies terug en accumuleert herbruikbare vaardigheden. Geëvalueerd op wiskundig redeneren, competitieve programmeercodegeneratie en repository-niveau software-engineering, evenaart of overtreft EvoTrainer de door mensen ontworpen RL-referenties onder dezelfde data, codebase en evaluatieprotocol, met de grootste winst op langetermijn agentische SWE. Trajectanalyse toont aan dat behouden strategieën per domein verschillen, dat evoluerende diagnostiek voorkomt dat ongeldige hoogscorende takken worden gepromoveerd, en dat herbruikbare vaardigheden latere zoektocht vormen. Autonome LLM-RL moet verder gaan dan receptzoektocht naar gezamenlijke evolutie van beleid en de trainingsharnassen die ze interpreteren.

English

Autonomous LLM training is often framed as recipe search, which leaves the training harness largely static. This limitation sharpens in agentic RL, where shifting bottlenecks and scalar rewards mask diverse failure modes. We introduce EvoTrainer, an autonomous training framework that co-evolves LLM policies and training-side harnesses through empirical feedback: it diagnoses rollout-level evidence, revises diagnostics, backtests interventions, and accumulates reusable skills. Evaluated on mathematical reasoning, competitive-programming code generation, and repository-level software engineering, EvoTrainer matches or exceeds the human-engineered RL references under the same data, codebase, and evaluation protocol, with the largest gain on long-horizon agentic SWE. Trajectory analyses show that retained strategies diverge across domains, evolving diagnostics prevent invalid high-scoring branches from being promoted, and reusable skills shape later search. Autonomous LLM RL should move beyond recipe search toward joint evolution of policies and the training harnesses that interpret them.