Mélange de comportements par région de confiance pour la distillation sur politique

Résumé

La distillation sur politique (OPD) entraîne un étudiant sur des préfixes échantillonnés selon sa propre politique tout en s'alignant sur un enseignant plus fort. Cela corrige le décalage de préfixes de la distillation hors ligne, mais les premiers déploiements de l'étudiant peuvent encore être médiocres, plaçant la supervision de l'enseignant sur des préfixes faibles ou de faible qualité. Nous proposons le Mélange de comportements en région de confiance (TRB), une méthode d'échauffement qui remplace la politique de déploiement précoce par la politique de comportement la plus proche de l'enseignant à l'intérieur d'une région de confiance KL centrée sur l'étudiant, tout en conservant la perte OPD de KL inverse par préfixe inchangée. Le budget KL est réduit progressivement à zéro, de sorte que l'entraînement revienne à des déploiements purs de l'étudiant après l'échauffement. Sur deux contextes de distillation de raisonnement mathématique, TRB obtient la moyenne la plus élevée parmi les méthodes comparées.

English

On-policy distillation (OPD) trains a student on prefixes sampled from its own policy while matching a stronger teacher. This addresses the prefix mismatch of offline distillation, but early student rollouts can still be poor, placing teacher supervision on weak or low-quality prefixes. We propose Trust-Region behavior Blending (TRB), a warmup method that replaces the early rollout policy with the closest-to-teacher behavior policy inside a student-centered KL trust region, while keeping the per-prefix reverse-KL OPD loss unchanged. The KL budget is annealed to zero, so training returns to pure student rollouts after warmup. Across two math-reasoning distillation settings, TRB attains the strongest average among the compared methods.