UniSD: Naar een geünificeerd raamwerk voor zelf-distillatie van grote taalmodellen

Samenvatting

Zelfdistillatie (SD) biedt een veelbelovende manier om grote taalmodellen (Large Language Models, LLM's) aan te passen zonder afhankelijk te zijn van sterkere externe docenten. Echter, SD in autoregressieve LLM's blijft uitdagend omdat zelf gegenereerde trajecten vrij van vorm zijn, correctheid taakafhankelijk is, en plausibele onderbouwingen nog steeds instabiele of onbetrouwbare supervisie kunnen bieden. Bestaande methoden onderzoeken voornamelijk geïsoleerde ontwerpkeuzes, waardoor hun effectiviteit, rollen en interacties onduidelijk blijven. In dit artikel stellen we UniSD voor, een uniform raamwerk om zelfdistillatie systematisch te bestuderen. UniSD integreert complementaire mechanismen die toezichtbetrouwbaarheid, representatie-uitlijning en trainingsstabiliteit aanpakken, waaronder overeenstemming tussen meerdere docenten, EMA-docentstabilisatie, contrastief leren op token-niveau, kenmerkmatching en divergentieclipping. Over zes benchmarks en zes modellen uit drie modelfamilies onthult UniSD wanneer zelfdistillatie verbetert ten opzichte van statische imitatie, welke componenten de winst aandrijven, en hoe deze componenten interageren over taken heen. Geleid door deze inzichten construeren we UniSDfull, een geïntegreerde pijplijn die complementaire componenten combineert en de sterkste algehele prestatie behaalt, met een verbetering van +5,4 punten ten opzichte van het basismodel en +2,8 punten ten opzichte van de sterkste basislijn. Uitgebreide evaluatie benadrukt zelfdistillatie als een praktische en stuurbaare benadering voor efficiënte LLM-aanpassing zonder sterkere externe docenten.

English

Self-distillation (SD) offers a promising path for adapting large language models (LLMs) without relying on stronger external teachers. However, SD in autoregressive LLMs remains challenging because self-generated trajectories are free-form, correctness is task-dependent, and plausible rationales can still provide unstable or unreliable supervision. Existing methods mainly examine isolated design choices, leaving their effectiveness, roles, and interactions unclear. In this paper, we propose UniSD, a unified framework to systematically study self-distillation. UniSD integrates complementary mechanisms that address supervision reliability, representation alignment, and training stability, including multi-teacher agreement, EMA teacher stabilization, token-level contrastive learning, feature matching, and divergence clipping. Across six benchmarks and six models from three model families, UniSD reveals when self-distillation improves over static imitation, which components drive the gains, and how these components interact across tasks. Guided by these insights, we construct UniSDfull, an integrated pipeline that combines complementary components and achieves the strongest overall performance, improving over the base model by +5.4 points and the strongest baseline by +2.8 points. Extensive evaluation highlights self-distillation as a practical and steerable approach for efficient LLM adaptation without stronger external teachers.

UniSD: Naar een geünificeerd raamwerk voor zelf-distillatie van grote taalmodellen

UniSD: Towards a Unified Self-Distillation Framework for Large Language Models

Samenvatting

Support