ReNIO: Herweging van het belang van negatieve trajecten voor on-policy destillatie van LLM's

Samenvatting

On-policy distillatie (OPD) verbetert het redeneren van grote taalmodellen (LLM's) door een studentmodel te trainen op zijn eigen gegenereerde outputs, maar standaard OPD behandelt alle door de student gegenereerde outputs (SGO's) gelijk, ongeacht hun informatief gehalte. We observeren een consistente asymmetrie in gecontroleerde filterexperimenten: zowel bij OPD als bij on-policy zelfdistillatie (OPSD) presteert training alleen op incorrecte SGO's beter dan training alleen op correcte. Onze verdere analyse suggereert dat modellen getraind op alleen correcte SGO's de neiging hebben kortere redeneersporen te genereren en zwakker reflectiegedrag vertonen, terwijl incorrecte SGO's beter exploratief redeneren nabij de grenzen van het modelvermogen behouden. Om dit signaal te benutten zonder volledige antwoordbevattende rollouts nodig te hebben, introduceren we ReNIO, dat het belang van negatieve trajecten herweegt voor on-policy distillatie van LLM's. Door gebruik te maken van de student-leraar waarschijnlijkheidsratio identificeert ReNIO cruciale tokens die leiden tot foutieve redeneersporen en aggregeert hun informatie in een genormaliseerd samplegewicht, waarbij inherent grotere gewichten worden toegekend aan waarschijnlijk negatieve trajecten zonder de correctheid van het uiteindelijke antwoord te observeren. Aangezien ReNIO alleen prefix-geconditioneerde tokenwaarschijnlijkheden gebruikt, behoudt het het prefixtrainingsvoordeel van OPD ten opzichte van volledige-rollout reinforcement learning. Zowel bij wiskundige redeneertaken als codegeneratietaken verbetert ReNIO zowel OPD als OPSD, met representatieve relatieve winsten tot 8.90% voor Qwen3-1.7B en 10.00% voor R1-Distill-Qwen-7B op wiskundige redeneerbenchmarks. Code repository: https://github.com/BDML-lab/ReNIO.

English

On-policy distillation (OPD) improves LLM reasoning by training a student model on its own generated outputs, but standard OPD treats all student-generated outputs (SGOs) equally regardless of their informativeness. We observe a consistent asymmetry in controlled filtering experiments: in both OPD and on-policy self distillation (OPSD), training only on incorrect SGOs outperforms training only on correct ones. Our further analysis suggests that models trained on correct-only SGOs tend to generate shorter reasoning traces and show weaker reflection behavior, while incorrect SGOs better preserve exploratory reasoning near the model's capability boundary. To exploit this signal without requiring full answer-containing rollouts, we introduce ReNIO, which Reweights Negative trajectory Importance for LLM On-policy distillation. By using the student-to-teacher probability ratio, ReNIO identifies pivotal tokens leading to wrong reasoning traces and aggregates their information into a normalized sample weight, inherently assigning larger weights to likely negative trajectories without observing the correctness of final-answer. Since Re-NIO only uses prefix-conditioned token probabilities, it preserves OPD's prefix training advantage over full-rollout reinforcement learning. Across both mathematical reasoning and code generation tasks, ReNIO improves both OPD and OPSD, with representative relative gains of up to 8.90% for Qwen3-1.7B and 10.00% for R1-Distill-Qwen-7B on mathematical reasoning benchmarks. Code repo: https://github.com/BDML-lab/ReNIO.