De extrapolatieklif in on-policy distillatie van bijna-deterministische gestructureerde outputs

Samenvatting

On-policy distillatie (OPD) wordt veelvuldig gebruikt voor de nabehandeling van LLM's. Wanneer aangedreven met een beloning-extrapolatiecoëfficiënt lambda > 1, kan de student de leraar in het domein overtreffen, maar boven een drempel lambda* schendt dezelfde stap het outputcontract bij gestructureerde-uitvoertaken. In een enkele-positie Bernoulli-reductie leiden we een gesloten-vorm basisrelatieve clipveiligheidsdrempel lambda*(p,b,c) af, bepaald door drie meetbare grootheden: de modale waarschijnlijkheid van de leraar, de warmstartmassa en de belangrijkheidssteekproef-clipsterkte. Boven lambda* verlaat het geëxtrapoleerde vaste punt de clipveilige regio, waardoor de training verandert van formaatbehoudend naar formaatinstortend. We breiden de regel uit naar gekalibreerde K-aire lijstgewijze JSON-taken waarbij een enkele bindende equivalentieklasse het outputcontract domineert en SFT parseermarge behoudt. Op Amazon Fashion vallen drie vooraf geregistreerde tests – een fijnmazig klifinterval, een budgetuitbreidingstest en een kleine-clip kruisvoorspelling – binnen hun vergrendelde voorspellingsvensters, waarbij de kleine-clip waarde overeenkomt met de gesloten-vorm voorspelling onder gridresolutie. Bij opereren net onder lambda* brengt ListOPD een 1,7B Qwen3-student tot domeinpariteit met een 8B-SFT baseline bij een vijfde van de parameters. De winst wordt voornamelijk gedreven door formaatnaleving: NDCG@1 voor geparseerde uitvoeren blijft vlak over lambda, terwijl parseergeldigheid scherp verandert bij de voorspelde grens. De klifdiagnostiek is rubriekonafhankelijk, terwijl de pariteitsclaim gebruikmaakt van een door Gemini beoordeelde rubriek en de blootstelling van die beoordelaar erft.

English

On-policy distillation (OPD) is widely used for LLM post-training. When pushed with a reward-extrapolation coefficient lambda > 1, the student can lift past the teacher in domain, but past a threshold lambda* the same step violates the output contract on structured-output tasks. In a single-position Bernoulli reduction, we derive a closed-form base-relative clip-safety threshold lambda*(p,b,c) determined by three measurable quantities: the teacher modal probability, the warm-start mass, and the importance-sampling clip strength. Above lambda*, the extrapolated fixed point exits the clip-safe region, changing training from format-preserving to format-collapsing. We extend the rule to calibrated K-ary listwise JSON tasks where a single binding equivalence class dominates the output contract and SFT retains parse headroom. On Amazon Fashion, three pre-registered tests--a fine-grid cliff interval, a budget-extension test, and a small-clip cross-prediction--fall within their locked prediction windows, with the small-clip value matching the closed-form prediction below grid resolution. Operating just below lambda*, ListOPD brings a 1.7B Qwen3 student to in-domain parity with an 8B-SFT baseline at one-fifth the parameters. The gain is driven primarily by format adherence: NDCG@1 on parsed outputs remains flat across lambda, while parse validity sharply changes at the predicted boundary. The cliff diagnostic is rubric-independent, whereas the parity claim uses a Gemini-graded rubric and inherits that evaluator's exposure.