TCOD: Untersuchung des temporalen Curriculums bei On-Policy-Distillation für mehrstufige autonome Agenten

Zusammenfassung

On-policy Distillation (OPD) hat ein großes Potenzial für die Übertragung von Reasoning-Fähigkeiten von führenden oder domänenspezifischen Modellen auf kleinere Studentenmodelle gezeigt. Während die Methode bei statischen Single-Turn-Aufgaben effektiv ist, bleibt ihr Verhalten in Multi-Turn-Agenten-Szenarien weitgehend unerforscht. In dieser Arbeit identifizieren wir eine zentrale Schwachstelle der herkömmlichen OPD in solchen Settings, die wir als Trajektorien-Level-KL-Instabilität bezeichnen. Konkret beobachten wir, dass die KL-Divergenz ansteigt, während die Erfolgsrate sinkt, und dass die KL-Divergenz selbst nach der Konvergenz hoch bleibt, was zu instabilem Training führt. Diese Instabilität entsteht durch die Aufsummierung von Fehlern über mehrere Turns hinweg: Wenn sich Fehler akkumulieren, bewegt sich das Studentenmodell außerhalb des effektiven Unterstützungsbereichs des Lehrers, was das Supervisionssignal unzuverlässig macht. Um dieses Problem zu lösen, schlagen wir TCOD (Temporal Curriculum On-Policy Distillation) vor, ein einfaches, aber effektives Framework, das die dem Studentenmodell ausgesetzte Trajektorienlänge kontrolliert und diese nach einem Curriculum-Plan schrittweise von kurz nach lang erweitert. Experimentelle Ergebnisse mit vier Lehrer-Schüler-Paaren auf drei Multi-Turn-Agenten-Benchmarks (ALFWorld, WebShop, ScienceWorld) zeigen, dass TCOD die KL-Eskalation abschwächt und die KL-Stabilität während des gesamten Trainings verbessert, was die Agentenleistung um bis zu 18 Punkte gegenüber der herkömmlichen OPD steigert. Weitere Auswertungen zeigen, dass TCOD sogar die Leistung des Lehrer-Modells übertreffen und sich auf Aufgaben verallgemeinern kann, bei denen der Lehrer versagt.

English

On-policy distillation (OPD) has shown strong potential for transferring reasoning ability from frontier or domain-specific models to smaller students. While effective on static single-turn tasks, its behavior in multi-turn agent settings remains underexplored. In this work, we identify a key limitation of vanilla OPD in such settings, which we term Trajectory-Level KL Instability. Specifically, we observe that KL divergence increases together with a drop in success rate, and even after convergence, the KL remains high, leading to unstable training. This instability arises from inter-turn error compounding: as errors accumulate, the student is driven beyond the teacher's effective support, rendering the supervision signal unreliable. To address this, we propose TCOD (Temporal Curriculum On-Policy Distillation), a simple yet effective framework that controls the trajectory depth exposed to the student and progressively expands it from short to long with a curriculum schedule.Experimental results across four student-teacher pairs on three multi-turn agent benchmarks (ALFWorld, WebShop, ScienceWorld) show that TCOD mitigates KL escalation and enhances KL stability throughout training, improving agent performance by up to 18 points over vanilla OPD. Further evaluations show that TCOD can even surpass the teacher's performance and generalize to tasks on which the teacher fails.

TCOD: Untersuchung des temporalen Curriculums bei On-Policy-Distillation für mehrstufige autonome Agenten

TCOD: Exploring Temporal Curriculum in On-Policy Distillation for Multi-turn Autonomous Agents

Zusammenfassung

Support