Het omkeren van de TIDE: Kruisarchitectuur-distillatie voor diffusie-grote-taalmodellen

Samenvatting

Diffusie grote taalmodellen (dLLM's) bieden parallelle decodering en bidirectionele context, maar state-of-the-art dLLM's vereisen miljarden parameters voor competitieve prestaties. Hoewel bestaande distillatiemethoden voor dLLM's inferentiestappen binnen een enkele architectuur verminderen, richt geen zich op kruisarchitectuur kennisoverdracht, waarbij de leraar en student verschillen in architectuur, aandachtmechanisme en tokenizer. Wij presenteren TIDE, het eerste raamwerk voor kruisarchitectuur dLLM-distillatie, bestaande uit drie modulaire componenten: (1) TIDAL, dat gezamenlijk de distillatiesterkte moduleert over de trainingsvoortgang en diffusietijdstap om rekening te houden met de ruisafhankelijke betrouwbaarheid van de leraar; (2) CompDemo, dat de context van de leraar verrijkt via complementaire masksplitsing om voorspellingen onder zware maskering te verbeteren; en (3) Reverse CALM, een kruistokenizer-doelstelling die chunk-level waarschijnlijkheidsmatching omkeert, wat begrensde gradiënten en dubbelzijdige ruisfiltering oplevert. Het distilleren van 8B dichte en 16B MoE-leraren naar een 0.6B-student via twee heterogene pijplijnen overtreft de baseline met gemiddeld 1.53 punten over acht benchmarks, met aanzienlijke winst in codegeneratie, waar HumanEval-scores 48.78 bereiken vergeleken met 32.3 voor de AR-baseline.

English

Diffusion large language models (dLLMs) offer parallel decoding and bidirectional context, but state-of-the-art dLLMs require billions of parameters for competitive performance. While existing distillation methods for dLLMs reduce inference steps within a single architecture, none address cross-architecture knowledge transfer, in which the teacher and student differ in architecture, attention mechanism, and tokenizer. We present TIDE, the first framework for cross-architecture dLLM distillation, comprising three modular components: (1) TIDAL, which jointly modulates distillation strength across training progress and diffusion timestep to account for the teacher's noise-dependent reliability; (2) CompDemo, which enriches the teacher's context via complementary mask splitting to improve predictions under heavy masking; and (3) Reverse CALM, a cross-tokenizer objective that inverts chunk-level likelihood matching, yielding bounded gradients and dual-end noise filtering. Distilling 8B dense and 16B MoE teachers into a 0.6B student via two heterogeneous pipelines outperforms the baseline by an average of 1.53 points across eight benchmarks, yielding notable gains in code generation, where HumanEval scores reach 48.78 compared to 32.3 for the AR baseline.

Het omkeren van de TIDE: Kruisarchitectuur-distillatie voor diffusie-grote-taalmodellen

Turning the TIDE: Cross-Architecture Distillation for Diffusion Large Language Models

Samenvatting

Support