TCOD: Исследование временного учебного плана при дистилляции в рамках политики для многозадачных автономных агентов

Аннотация

Он-политическая дистилляция (OPD) продемонстрировала значительный потенциал для передачи способности к рассуждениям от передовых или узкоспециализированных моделей к меньшим студенческим моделям. Хотя метод эффективен в статических одношаговых задачах, его поведение в многошаговых агентских сценариях остается малоизученным. В данной работе мы выявляем ключевое ограничение классической OPD в таких условиях, которое мы называем Нестабильностью KL-дивергенции на Уровне Траектории. В частности, мы наблюдаем, что KL-дивергенция возрастает вместе со снижением показателя успешности, и даже после сходимости KL остается высокой, что приводит к нестабильности обучения. Эта нестабильность возникает из-за кумулятивного накопления ошибок между шагами: по мере накопления ошибок студент выходит за пределы эффективной области поддержки учителя, что делает контрольный сигнал ненадежным. Для решения этой проблемы мы предлагаем TCOD (Временная Учебная Программа для Он-политической Дистилляции) — простую, но эффективную структуру, которая контролирует глубину траектории, предоставляемую студенту, и постепенно расширяет ее от короткой к длинной в соответствии с учебным планом. Экспериментальные результаты для четырех пар учитель-студент на трех многошаговых агентских бенчмарках (ALFWorld, WebShop, ScienceWorld) показывают, что TCOD смягчает эскалацию KL-дивергенции и повышает ее стабильность на протяжении всего обучения, улучшая производительность агента до 18 пунктов по сравнению с классической OPD. Дальнейшие оценки показывают, что TCOD может даже превзойти производительность учителя и обобщаться на задачи, с которыми учитель не справляется.

English

On-policy distillation (OPD) has shown strong potential for transferring reasoning ability from frontier or domain-specific models to smaller students. While effective on static single-turn tasks, its behavior in multi-turn agent settings remains underexplored. In this work, we identify a key limitation of vanilla OPD in such settings, which we term Trajectory-Level KL Instability. Specifically, we observe that KL divergence increases together with a drop in success rate, and even after convergence, the KL remains high, leading to unstable training. This instability arises from inter-turn error compounding: as errors accumulate, the student is driven beyond the teacher's effective support, rendering the supervision signal unreliable. To address this, we propose TCOD (Temporal Curriculum On-Policy Distillation), a simple yet effective framework that controls the trajectory depth exposed to the student and progressively expands it from short to long with a curriculum schedule.Experimental results across four student-teacher pairs on three multi-turn agent benchmarks (ALFWorld, WebShop, ScienceWorld) show that TCOD mitigates KL escalation and enhances KL stability throughout training, improving agent performance by up to 18 points over vanilla OPD. Further evaluations show that TCOD can even surpass the teacher's performance and generalize to tasks on which the teacher fails.

TCOD: Исследование временного учебного плана при дистилляции в рамках политики для многозадачных автономных агентов

TCOD: Exploring Temporal Curriculum in On-Policy Distillation for Multi-turn Autonomous Agents

Аннотация

Support