Distillation on-policy basée sur des rubriques

Résumé

La distillation sur politique (OPD) constitue un paradigme puissant pour l'alignement des modèles, mais sa dépendance aux logits de l'enseignant limite son application aux scénarios en boîte blanche. Nous soutenons que des rubriques sémantiques structurées peuvent servir d'alternative évolutive aux logits de l'enseignant, permettant une OPD exploitant uniquement les réponses générées par l'enseignant. Pour le prouver, nous introduisons ROPD, un cadre simple mais fondamental pour l'OPD basée sur des rubriques. Plus précisément, ROPD induit des rubriques spécifiques aux prompts à partir des contrastes enseignant-étudiant, puis utilise ces rubriques pour noter les sorties de l'étudiant en vue d'une optimisation sur politique. Empiriquement, ROPD surpasse les méthodes avancées d'OPD basées sur les logits dans la plupart des scénarios, avec un gain d'efficacité en termes d'échantillons allant jusqu'à un facteur 10. Ces résultats positionnent l'OPD basée sur des rubriques comme une alternative flexible et compatible avec les boîtes noires à l'OPD dominante basée sur les logits, offrant une référence simple mais solide pour une distillation évolutive à travers les LLM propriétaires et open source. Le code est disponible à l'adresse https://github.com/Peregrine123/ROPD_official.

English

On-policy distillation (OPD) is a powerful paradigm for model alignment, yet its reliance on teacher logits restricts its application to white-box scenarios. We contend that structured semantic rubrics can serve as a scalable alternative to teacher logits, enabling OPD using only teacher-generated responses. To prove it, we introduce ROPD, a simple yet foundational framework for rubric-based OPD. Specifically, ROPD induces prompt-specific rubrics from teacher-student contrasts, and then utilizes these rubrics to score the student rollouts for on-policy optimization. Empirically, ROPD outperforms the advanced logit-based OPD methods across most scenarios, and achieving up to a 10x gain in sample efficiency. These results position rubric-based OPD as a flexible, black-box-compatible alternative to the prevailing logit-based OPD, offering a simple yet strong baseline for scalable distillation across proprietary and open-source LLMs. Code is available at https://github.com/Peregrine123/ROPD_official.