ChatPaper.aiChatPaper

Rubrikbasierte On-Policy-Destillation

Rubric-based On-policy Distillation

May 8, 2026
Autoren: Junfeng Fang, Zhepei Hong, Mao Zheng, Mingyang Song, Gengsheng Li, Houcheng Jiang, Dan Zhang, Haiyun Guo, Xiang Wang, Tat-Seng Chua
cs.AI

Zusammenfassung

On-Policy-Destillation (OPD) ist ein leistungsstarkes Paradigma zur Modellausrichtung, jedoch schränkt ihre Abhängigkeit von Lehrer-Logits die Anwendung auf White-Box-Szenarien ein. Wir argumentieren, dass strukturierte semantische Rubriken als skalierbare Alternative zu Lehrer-Logits dienen können, wodurch OPD ausschließlich mit Lehrer-generierten Antworten ermöglicht wird. Zum Nachweis führen wir ROPD ein, ein einfaches, aber grundlegendes Framework für Rubriken-basierte OPD. Konkret extrahiert ROPD promptspezifische Rubriken aus Lehrer-Schüler-Kontrasten und nutzt diese Rubriken anschließend zur Bewertung der Schüler-Rollouts für die On-Policy-Optimierung. Empirisch übertrifft ROPD die fortschrittlichen logitbasierten OPD-Verfahren in den meisten Szenarien und erreicht eine bis zu zehnfache Steigerung der Stichprobeneffizienz. Diese Ergebnisse positionieren Rubriken-basierte OPD als flexible, Black-Box-kompatible Alternative zur vorherrschenden logitbasierten OPD und bieten eine einfache, aber starke Basislinie für skalierbare Destillation in proprietären und Open-Source-LLMs. Der Code ist verfügbar unter https://github.com/Peregrine123/ROPD_official.
English
On-policy distillation (OPD) is a powerful paradigm for model alignment, yet its reliance on teacher logits restricts its application to white-box scenarios. We contend that structured semantic rubrics can serve as a scalable alternative to teacher logits, enabling OPD using only teacher-generated responses. To prove it, we introduce ROPD, a simple yet foundational framework for rubric-based OPD. Specifically, ROPD induces prompt-specific rubrics from teacher-student contrasts, and then utilizes these rubrics to score the student rollouts for on-policy optimization. Empirically, ROPD outperforms the advanced logit-based OPD methods across most scenarios, and achieving up to a 10x gain in sample efficiency. These results position rubric-based OPD as a flexible, black-box-compatible alternative to the prevailing logit-based OPD, offering a simple yet strong baseline for scalable distillation across proprietary and open-source LLMs. Code is available at https://github.com/Peregrine123/ROPD_official.
PDF11May 12, 2026