Herziening van DAgger in het tijdperk van LLM-agenten

Samenvatting

Lange-horizon LM-agenten leren van meerstapsinteracties, waarbij één vroege fout de daaropvolgende toestandsverdeling kan wijzigen en de hele trajectorie kan ontsporen. Bestaande methodes schieten op complementaire wijze tekort: supervised fine-tuning biedt dichte lerarentoezicht maar lijdt aan covariate shift omdat het getraind wordt op off-policy lerarentrajecten; terwijl reinforcement learning met verifieerbare beloningen deze off-policy mismatch vermijdt door te leren van on-policy rollouts maar met slechts spaarzame uitkomstfeedback. We pakken dit dilemma aan door Dataset Aggregatie (DAgger) te heroverwegen voor meerstaps LM-agenten: het algoritme verzamelt trajectoriën via een tussenniveau-interpolatie van student- en lerarenbeleid, en de student wordt vervolgens op deze trajectoriën getraind met behulp van gesuperviseerde labels van de leraar. Door direct met omgevingen te interacteren, stellen we het model bloot aan realistische toestanden die waarschijnlijk tijdens implementatie worden aangetroffen, waardoor covariate shift effectief wordt beperkt. Bovendien, aangezien de student leert door het gedrag van de leraar te imiteren, ontvangt het rijke feedback tijdens het leren. Om aan te tonen dat DAgger de voordelen van beide werelden geniet, testten we het algoritme om een software-engineering agent te trainen met studentmodellen op 4B- en 8B-schaal. Op SWE-bench Verified verbetert onze DAgger-stijl training ten opzichte van de sterkste post-training baseline met +3,9 punten op 4B en +3,6 punten op 8B. De resulterende 4B agent bereikt 27,3%, beter dan representatieve gepubliceerde 8B SWE-agentsystemen, terwijl de 8B agent 29,8% behaalt, wat SWE-Gym-32B overtreft en binnen 5 punten komt van sterkere 32B-schaal agenten. Samen met consistente winsten op de aparte SWE-Gym splitsing suggereren deze resultaten de effectiviteit van DAgger voor moderne lange-horizon LM-agenten.

English

Long-horizon LM agents learn from multi-turn interaction, where a single early mistake can alter the subsequent state distribution and derail the whole trajectory. Existing recipes fall short in complementary ways: supervised fine-tuning provides dense teacher supervision but suffers from covariate shift because it is trained on off-policy teacher trajectories; while reinforcement learning with verifiable rewards avoids this off-policy mismatch by learning from on-policy rollouts but with only sparse outcome feedback. We address this dilemma by revisiting Dataset Aggregation (DAgger) for multi-turn LM agents: the algorithm collects trajectories through a turn-level interpolation of student and teacher policies, and the student is then trained on these trajectories using supervised labels provided by the teacher. By directly interacting with environments, we expose the model to realistic states likely to be encountered during deployment, thereby effectively mitigating covariate shift. Besides, since the student is learned by mimicking the teacher's behavior, it receives rich feedback during learning. To demonstrate DAgger enjoys the benefits of both worlds, we tested the algorithm to train a software-engineering agent with 4B- and 8B-scale student models. On SWE-bench Verified, our DAgger-style training improves over the strongest post-training baseline by +3.9 points at 4B and +3.6 points at 8B. The resulting 4B agent reaches 27.3%, outperforming representative published 8B SWE-agent systems, while the 8B agent achieves 29.8%, surpassing SWE-Gym-32B and coming within 5 points of stronger 32B-scale agents. Together with consistent gains on the held-out SWE-Gym split, these results suggest the effectiveness of DAgger for modern long-horizon LM agents.