Destilación on-policy basada en rúbrica
Rubric-based On-policy Distillation
May 8, 2026
Autores: Junfeng Fang, Zhepei Hong, Mao Zheng, Mingyang Song, Gengsheng Li, Houcheng Jiang, Dan Zhang, Haiyun Guo, Xiang Wang, Tat-Seng Chua
cs.AI
Resumen
La destilación on-policy (OPD) es un paradigma potente para la alineación de modelos, pero su dependencia de los logits del profesor limita su aplicación a escenarios de caja blanca. Sostenemos que las rúbricas semánticas estructuradas pueden servir como una alternativa escalable a los logits del profesor, permitiendo la OPD utilizando únicamente respuestas generadas por el profesor. Para demostrarlo, presentamos ROPD, un marco simple pero fundamental para la OPD basada en rúbricas. Específicamente, ROPD induce rúbricas específicas de cada prompt a partir de contrastes profesor-alumno, y luego utiliza estas rúbricas para puntuar los rollouts del alumno y realizar una optimización on-policy. Empíricamente, ROPD supera a los métodos avanzados de OPD basados en logits en la mayoría de los escenarios, logrando hasta un aumento de 10x en eficiencia de muestreo. Estos resultados posicionan la OPD basada en rúbricas como una alternativa flexible y compatible con caja negra a la OPD predominante basada en logits, ofreciendo un baseline simple pero sólido para la destilación escalable en LLMs propietarios y de código abierto. El código está disponible en https://github.com/Peregrine123/ROPD_official.
English
On-policy distillation (OPD) is a powerful paradigm for model alignment, yet its reliance on teacher logits restricts its application to white-box scenarios. We contend that structured semantic rubrics can serve as a scalable alternative to teacher logits, enabling OPD using only teacher-generated responses. To prove it, we introduce ROPD, a simple yet foundational framework for rubric-based OPD. Specifically, ROPD induces prompt-specific rubrics from teacher-student contrasts, and then utilizes these rubrics to score the student rollouts for on-policy optimization. Empirically, ROPD outperforms the advanced logit-based OPD methods across most scenarios, and achieving up to a 10x gain in sample efficiency. These results position rubric-based OPD as a flexible, black-box-compatible alternative to the prevailing logit-based OPD, offering a simple yet strong baseline for scalable distillation across proprietary and open-source LLMs. Code is available at https://github.com/Peregrine123/ROPD_official.