Критериальная он-полиси дистилляция

Аннотация

Дистилляция в рамках текущей политики (on-policy distillation, OPD) является мощной парадигмой для выравнивания моделей, однако её зависимость от логитов учителя ограничивает применение только сценариями «белого ящика». Мы утверждаем, что структурированные семантические рубрики могут служить масштабируемой альтернативой логитам учителя, позволяя реализовать OPD исключительно на основе ответов, сгенерированных учителем. Для подтверждения этого мы представляем ROPD — простую, но фундаментальную основу для рубричной OPD. В частности, ROPD извлекает рубрики, специфичные для промпта, из контрастов между учителем и учеником, а затем использует эти рубрики для оценки результатов развертывания ученика с целью оптимизации в рамках текущей политики. Эмпирически ROPD превосходит продвинутые методы OPD на основе логитов в большинстве сценариев, достигая до 10-кратного повышения эффективности использования выборки. Эти результаты позиционируют рубричную OPD как гибкую, совместимую с «черным ящиком» альтернативу преобладающей OPD на основе логитов, предлагая простой, но сильный базовый метод для масштабируемой дистилляции как проприетарных, так и открытых LLM. Код доступен по адресу https://github.com/Peregrine123/ROPD_official.

English

On-policy distillation (OPD) is a powerful paradigm for model alignment, yet its reliance on teacher logits restricts its application to white-box scenarios. We contend that structured semantic rubrics can serve as a scalable alternative to teacher logits, enabling OPD using only teacher-generated responses. To prove it, we introduce ROPD, a simple yet foundational framework for rubric-based OPD. Specifically, ROPD induces prompt-specific rubrics from teacher-student contrasts, and then utilizes these rubrics to score the student rollouts for on-policy optimization. Empirically, ROPD outperforms the advanced logit-based OPD methods across most scenarios, and achieving up to a 10x gain in sample efficiency. These results position rubric-based OPD as a flexible, black-box-compatible alternative to the prevailing logit-based OPD, offering a simple yet strong baseline for scalable distillation across proprietary and open-source LLMs. Code is available at https://github.com/Peregrine123/ROPD_official.

Критериальная он-полиси дистилляция

Rubric-based On-policy Distillation

Аннотация

Support