TCOD: Explorando o Currículo Temporal na Destilação On-Policy para Agentes Autónomos Multi-turn

Resumo

A destilação on-policy (OPD) tem demonstrado um forte potencial para transferir a capacidade de raciocínio de modelos de ponta ou específicos de domínio para estudantes menores. Embora eficaz em tarefas estáticas de turno único, o seu comportamento em ambientes de agente multi-turno permanece pouco explorado. Neste trabalho, identificamos uma limitação fundamental da OPD padrão nestes contextos, à qual denominamos Instabilidade do KL a Nível de Trajetória. Especificamente, observamos que a divergência KL aumenta em conjunto com uma queda na taxa de sucesso, e mesmo após a convergência, o KL permanece elevado, levando a um treino instável. Esta instabilidade surge da composição de erros entre turnos: à medida que os erros se acumulam, o estudante é conduzido para além do suporte efetivo do professor, tornando o sinal de supervisão não confiável. Para resolver isto, propomos o TCOD (Temporal Curriculum On-Policy Distillation), uma estrutura simples mas eficaz que controla a profundidade da trajetória exposta ao estudante e a expande progressivamente de curta para longa com um cronograma de currículo. Resultados experimentais em quatro pares professor-estudante em três benchmarks de agente multi-turno (ALFWorld, WebShop, ScienceWorld) mostram que o TCOD mitiga a escalada do KL e melhora a estabilidade do KL ao longo do treino, aumentando o desempenho do agente em até 18 pontos em relação à OPD padrão. Avaliações adicionais mostram que o TCOD pode até superar o desempenho do professor e generalizar para tarefas em que o professor falha.

English

On-policy distillation (OPD) has shown strong potential for transferring reasoning ability from frontier or domain-specific models to smaller students. While effective on static single-turn tasks, its behavior in multi-turn agent settings remains underexplored. In this work, we identify a key limitation of vanilla OPD in such settings, which we term Trajectory-Level KL Instability. Specifically, we observe that KL divergence increases together with a drop in success rate, and even after convergence, the KL remains high, leading to unstable training. This instability arises from inter-turn error compounding: as errors accumulate, the student is driven beyond the teacher's effective support, rendering the supervision signal unreliable. To address this, we propose TCOD (Temporal Curriculum On-Policy Distillation), a simple yet effective framework that controls the trajectory depth exposed to the student and progressively expands it from short to long with a curriculum schedule.Experimental results across four student-teacher pairs on three multi-turn agent benchmarks (ALFWorld, WebShop, ScienceWorld) show that TCOD mitigates KL escalation and enhances KL stability throughout training, improving agent performance by up to 18 points over vanilla OPD. Further evaluations show that TCOD can even surpass the teacher's performance and generalize to tasks on which the teacher fails.

TCOD: Explorando o Currículo Temporal na Destilação On-Policy para Agentes Autónomos Multi-turn

TCOD: Exploring Temporal Curriculum in On-Policy Distillation for Multi-turn Autonomous Agents

Resumo

Support