ReNIO: Перевзвешивание важности негативных траекторий для дистилляции на политике больших языковых моделей

Аннотация

On-policy дистилляция (OPD) улучшает рассуждения LLM за счет обучения модели-студента на ее собственных сгенерированных выходных данных, однако стандартная OPD рассматривает все выходные данные, сгенерированные студентом (SGOs), одинаково, независимо от их информативности. Мы наблюдаем устойчивую асимметрию в контролируемых экспериментах по фильтрации: как в OPD, так и в on-policy самодистилляции (OPSD), обучение только на неверных SGOs превосходит обучение только на верных. Наш дальнейший анализ показывает, что модели, обученные только на верных SGOs, склонны генерировать более короткие цепочки рассуждений и демонстрировать более слабое рефлексивное поведение, в то время как неверные SGOs лучше сохраняют исследовательское рассуждение вблизи границы возможностей модели. Чтобы использовать этот сигнал без необходимости в полных развертываниях, содержащих ответ, мы представляем ReNIO, который перевзвешивает важность отрицательных траекторий для on-policy дистилляции LLM. Используя отношение вероятностей студента к учителю, ReNIO идентифицирует ключевые токены, ведущие к неверным цепочкам рассуждений, и агрегирует их информацию в нормализованный вес выборки, по существу присваивая большие веса вероятным отрицательным траекториям без наблюдения за правильностью окончательного ответа. Поскольку ReNIO использует только вероятности токенов, обусловленные префиксом, он сохраняет преимущество OPD в обучении на префиксах перед обучением с подкреплением на полных развертываниях. Как в задачах математического рассуждения, так и в генерации кода, ReNIO улучшает как OPD, так и OPSD, с характерными относительными улучшениями до 8.90% для Qwen3-1.7B и 10.00% для R1-Distill-Qwen-7B на бенчмарках математического рассуждения. Репозиторий с кодом: https://github.com/BDML-lab/ReNIO.

English

On-policy distillation (OPD) improves LLM reasoning by training a student model on its own generated outputs, but standard OPD treats all student-generated outputs (SGOs) equally regardless of their informativeness. We observe a consistent asymmetry in controlled filtering experiments: in both OPD and on-policy self distillation (OPSD), training only on incorrect SGOs outperforms training only on correct ones. Our further analysis suggests that models trained on correct-only SGOs tend to generate shorter reasoning traces and show weaker reflection behavior, while incorrect SGOs better preserve exploratory reasoning near the model's capability boundary. To exploit this signal without requiring full answer-containing rollouts, we introduce ReNIO, which Reweights Negative trajectory Importance for LLM On-policy distillation. By using the student-to-teacher probability ratio, ReNIO identifies pivotal tokens leading to wrong reasoning traces and aggregates their information into a normalized sample weight, inherently assigning larger weights to likely negative trajectories without observing the correctness of final-answer. Since Re-NIO only uses prefix-conditioned token probabilities, it preserves OPD's prefix training advantage over full-rollout reinforcement learning. Across both mathematical reasoning and code generation tasks, ReNIO improves both OPD and OPSD, with representative relative gains of up to 8.90% for Qwen3-1.7B and 10.00% for R1-Distill-Qwen-7B on mathematical reasoning benchmarks. Code repo: https://github.com/BDML-lab/ReNIO.