Heroverdenken van On-Policy Distillatie van Grote Taalmodellen: Fenomenologie, Mechanisme en Recept

Samenvatting

On-policy distillatie (OPD) is een kerntechniek geworden in het natraineren van grote taalmodellen, maar de trainingsdynamiek ervan is nog steeds slecht begrepen. Dit artikel biedt een systematisch onderzoek naar OPD-dynamiek en -mechanismen. We identificeren eerst twee voorwaarden die bepalen of OPD slaagt of faalt: (i) de student en de leraar moeten compatibele denkpatronen delen; en (ii) zelfs bij consistente denkpatronen en hogere scores moet de leraar echt nieuwe capaciteiten bieden die verder gaan dan wat de student tijdens de training heeft gezien. We valideren deze bevindingen via weak-to-strong reverse distillatie, waarbij we aantonen dat leraren van 1,5B en 7B uit dezelfde familie distributioneel ononderscheidbaar zijn vanuit het perspectief van de student. Door in te zoomen op het token-level mechanisme tonen we aan dat succesvolle OPD wordt gekenmerkt door progressieve uitlijning op tokens met een hoge waarschijnlijkheid in door de student bezochte toestanden, een kleine gedeelde set tokens waar het grootste deel van de waarschijnlijkheidsmassa (97%-99%) geconcentreerd is. We stellen verder twee praktische strategieën voor om falende OPD te herstellen: off-policy cold start en teacher-aligned promptselectie. Ten slotte tonen we aan dat de schijnbare 'free lunch' van OPD, in de vorm van dichte token-level beloning, een prijs heeft, wat de vraag opwerpt of OPD kan worden opgeschaald naar distillatie over lange horizonnen.

English

On-policy distillation (OPD) has become a core technique in the post-training of large language models, yet its training dynamics remain poorly understood. This paper provides a systematic investigation of OPD dynamics and mechanisms. We first identify that two conditions govern whether OPD succeeds or fails: (i) the student and teacher should share compatible thinking patterns; and (ii) even with consistent thinking patterns and higher scores, the teacher must offer genuinely new capabilities beyond what the student has seen during training. We validate these findings through weak-to-strong reverse distillation, showing that same-family 1.5B and 7B teachers are distributionally indistinguishable from the student's perspective. Probing into the token-level mechanism, we show that successful OPD is characterized by progressive alignment on high-probability tokens at student-visited states, a small shared token set that concentrates most of the probability mass (97%-99%). We further propose two practical strategies to recover failing OPD: off-policy cold start and teacher-aligned prompt selection. Finally, we show that OPD's apparent free lunch of dense token-level reward comes at a cost, raising the question of whether OPD can scale to long-horizon distillation.

Heroverdenken van On-Policy Distillatie van Grote Taalmodellen: Fenomenologie, Mechanisme en Recept

Rethinking On-Policy Distillation of Large Language Models: Phenomenology, Mechanism, and Recipe

Samenvatting

Support