EvoTrainer: Ko-Evolution von LLM-Policies und Trainings-Harnischen für autonomes agentisches Reinforcement Learning

Zusammenfassung

Autonomes LLM-Training wird oft als Rezeptsuche verstanden, wobei der Trainingsrahmen weitgehend statisch bleibt. Diese Einschränkung tritt beim agentenbasierten RL besonders zutage, wo wechselnde Engpässe und skalare Belohnungen verschiedene Fehlermodi überdecken. Wir stellen EvoTrainer vor, ein autonomes Trainingsframework, das durch empirische Rückmeldungen LLM-Richtlinien und trainingsseitige Rahmen ko-evolviert: Es diagnostiziert Evidenz auf Rolloutebene, überarbeitet Diagnostiken, führt Rücktests von Interventionen durch und sammelt wiederverwendbare Fähigkeiten. Evaluiert auf mathematischem Reasoning, Codegenerierung im Wettbewerbsprogrammierumfeld und Softwareentwicklung auf Repository-Ebene erreicht oder übertrifft EvoTrainer die von Menschen entwickelten RL-Referenzen bei gleicher Datenlage, Codebasis und Evaluierungsprotokoll; der größte Zugewinn zeigt sich bei langfristigem agentischem SWE. Trajektorienanalysen belegen, dass beibehaltene Strategien domänenübergreifend divergieren, sich entwickelnde Diagnostiken die Beförderung ungültiger, hoch bewerteter Zweige verhindern und wiederverwendbare Fähigkeiten spätere Suchvorgänge prägen. Autonomes LLM-RL sollte über die Rezeptsuche hinausgehen und sich der gemeinsamen Evolution von Richtlinien und den sie interpretierenden Trainingsrahmen zuwenden.

English

Autonomous LLM training is often framed as recipe search, which leaves the training harness largely static. This limitation sharpens in agentic RL, where shifting bottlenecks and scalar rewards mask diverse failure modes. We introduce EvoTrainer, an autonomous training framework that co-evolves LLM policies and training-side harnesses through empirical feedback: it diagnoses rollout-level evidence, revises diagnostics, backtests interventions, and accumulates reusable skills. Evaluated on mathematical reasoning, competitive-programming code generation, and repository-level software engineering, EvoTrainer matches or exceeds the human-engineered RL references under the same data, codebase, and evaluation protocol, with the largest gain on long-horizon agentic SWE. Trajectory analyses show that retained strategies diverge across domains, evolving diagnostics prevent invalid high-scoring branches from being promoted, and reusable skills shape later search. Autonomous LLM RL should move beyond recipe search toward joint evolution of policies and the training harnesses that interpret them.