Combinação de Comportamentos em Região de Confiança para Destilação On-Policy

Resumo

A destilação on-policy (DOP) treina um estudante em prefixos amostrados a partir de sua própria política, enquanto busca igualar um professor mais forte. Isso aborda a incompatibilidade de prefixos da destilação offline, mas os rollouts iniciais do estudante ainda podem ser ruins, colocando a supervisão do professor sobre prefixos fracos ou de baixa qualidade. Propomos o Trust-Region behavior Blending (TRB), um método de aquecimento que substitui a política de rollout inicial pela política de comportamento mais próxima do professor dentro de uma região de confiança KL centrada no estudante, mantendo inalterada a perda de KL reversa por prefixo da DOP. O orçamento de KL é reduzido gradualmente até zero, de modo que o treinamento retorna a rollouts puros do estudante após o aquecimento. Em dois cenários de destilação de raciocínio matemático, o TRB obtém a média mais forte entre os métodos comparados.

English

On-policy distillation (OPD) trains a student on prefixes sampled from its own policy while matching a stronger teacher. This addresses the prefix mismatch of offline distillation, but early student rollouts can still be poor, placing teacher supervision on weak or low-quality prefixes. We propose Trust-Region behavior Blending (TRB), a warmup method that replaces the early rollout policy with the closest-to-teacher behavior policy inside a student-centered KL trust region, while keeping the per-prefix reverse-KL OPD loss unchanged. The KL budget is annealed to zero, so training returns to pure student rollouts after warmup. Across two math-reasoning distillation settings, TRB attains the strongest average among the compared methods.