ChatPaper.aiChatPaper

TIDEを転換する:拡散大規模言語モデルのためのクロスアーキテクチャ蒸留

Turning the TIDE: Cross-Architecture Distillation for Diffusion Large Language Models

April 29, 2026
著者: Gongbo Zhang, Wen Wang, Ye Tian, Li Yuan
cs.AI

要旨

拡散大規模言語モデル(dLLM)は並列デコードと双方向コンテキストを実現するが、競争力のある性能を得るには最先端のdLLMでも数十億のパラメータが必要である。既存のdLLM蒸留手法は単一アーキテクチャ内での推論ステップ削減を扱うが、教師と生徒がアーキテクチャ・注意機構・トークナイザにおいて異なるクロスアーキテクチャ知識転送には未着手だった。我々はTIDEを提案する。これはクロスアーキテクチャdLLM蒸留の初のフレームワークであり、3つのモジュラー構成要素から成る:(1)TIDALは、教師モデルのノイズ依存的な信頼性を考慮し、訓練進度と拡散タイムステップにわたって蒸留強度を連携調整する;(2)CompDemoは、相補的マスク分割により教師のコンテキストを強化し、高マスク条件下での予測精度を向上させる;(3)Reverse CALMは、チャンク単位の尤度マッチングを反転させたクロストークナイザ目的関数で、有界勾配と双端ノイズフィルタリングを実現する。8B密結合モデルと16B MoE教師から0.6B生徒への2種類の異種パイプラインによる蒸留では、8ベンチマークで平均1.53ポイントのベースライン向上を達成し、コード生成ではHumanEvalスコアがARベースラインの32.3に対し48.78と顕著な改善を示した。
English
Diffusion large language models (dLLMs) offer parallel decoding and bidirectional context, but state-of-the-art dLLMs require billions of parameters for competitive performance. While existing distillation methods for dLLMs reduce inference steps within a single architecture, none address cross-architecture knowledge transfer, in which the teacher and student differ in architecture, attention mechanism, and tokenizer. We present TIDE, the first framework for cross-architecture dLLM distillation, comprising three modular components: (1) TIDAL, which jointly modulates distillation strength across training progress and diffusion timestep to account for the teacher's noise-dependent reliability; (2) CompDemo, which enriches the teacher's context via complementary mask splitting to improve predictions under heavy masking; and (3) Reverse CALM, a cross-tokenizer objective that inverts chunk-level likelihood matching, yielding bounded gradients and dual-end noise filtering. Distilling 8B dense and 16B MoE teachers into a 0.6B student via two heterogeneous pipelines outperforms the baseline by an average of 1.53 points across eight benchmarks, yielding notable gains in code generation, where HumanEval scores reach 48.78 compared to 32.3 for the AR baseline.
PDF362May 1, 2026