ChatPaper.aiChatPaper

Критериальная он-полиси дистилляция

Rubric-based On-policy Distillation

May 8, 2026
Авторы: Junfeng Fang, Zhepei Hong, Mao Zheng, Mingyang Song, Gengsheng Li, Houcheng Jiang, Dan Zhang, Haiyun Guo, Xiang Wang, Tat-Seng Chua
cs.AI

Аннотация

Дистилляция в рамках текущей политики (on-policy distillation, OPD) является мощной парадигмой для выравнивания моделей, однако её зависимость от логитов учителя ограничивает применение только сценариями «белого ящика». Мы утверждаем, что структурированные семантические рубрики могут служить масштабируемой альтернативой логитам учителя, позволяя реализовать OPD исключительно на основе ответов, сгенерированных учителем. Для подтверждения этого мы представляем ROPD — простую, но фундаментальную основу для рубричной OPD. В частности, ROPD извлекает рубрики, специфичные для промпта, из контрастов между учителем и учеником, а затем использует эти рубрики для оценки результатов развертывания ученика с целью оптимизации в рамках текущей политики. Эмпирически ROPD превосходит продвинутые методы OPD на основе логитов в большинстве сценариев, достигая до 10-кратного повышения эффективности использования выборки. Эти результаты позиционируют рубричную OPD как гибкую, совместимую с «черным ящиком» альтернативу преобладающей OPD на основе логитов, предлагая простой, но сильный базовый метод для масштабируемой дистилляции как проприетарных, так и открытых LLM. Код доступен по адресу https://github.com/Peregrine123/ROPD_official.
English
On-policy distillation (OPD) is a powerful paradigm for model alignment, yet its reliance on teacher logits restricts its application to white-box scenarios. We contend that structured semantic rubrics can serve as a scalable alternative to teacher logits, enabling OPD using only teacher-generated responses. To prove it, we introduce ROPD, a simple yet foundational framework for rubric-based OPD. Specifically, ROPD induces prompt-specific rubrics from teacher-student contrasts, and then utilizes these rubrics to score the student rollouts for on-policy optimization. Empirically, ROPD outperforms the advanced logit-based OPD methods across most scenarios, and achieving up to a 10x gain in sample efficiency. These results position rubric-based OPD as a flexible, black-box-compatible alternative to the prevailing logit-based OPD, offering a simple yet strong baseline for scalable distillation across proprietary and open-source LLMs. Code is available at https://github.com/Peregrine123/ROPD_official.
PDF11May 12, 2026