良いところまでスキップ:拡散モデルと自己回帰LLMにおける表現構造と推論時のレイヤースキップ
Skip to the Good Part: Representation Structure & Inference-Time Layer Skipping in Diffusion vs. Autoregressive LLMs
March 8, 2026
著者: Raghavv Goel, Risheek Garrepalli, Sudhanshu Agrawal, Chris Lott, Mingu Lee, Fatih Porikli
cs.AI
要旨
自己回帰(AR)言語モデルは左から右への予測を通じて段階的に表現を形成するのに対し、拡散言語モデル(dLLM)は全文のノイズ除去によって学習されます。近年のdLLMはARモデルと同等の性能を達成していますが、拡散目標が内部表現を深層にわたって根本的に再形成するかどうかは未解明のままでした。本研究では、ネイティブdLLM(LLaDA)、ネイティブARモデル(Qwen2.5)、AR初期化dLLM(Dream-7B)を比較し、層単位・トークン単位での表現分析を初めて実施しました。その結果、拡散目標はより階層的な抽象化をもたらし、下位層で大幅な冗長性と近接バイアスの低減が見られる一方、AR目標は密結合で深度依存的な表現を生成することが明らかになりました。決定的に、AR初期化dLLMは拡散学習後もAR的な表現動態を保持し、初期化バイアスの持続性が示されました。この観測された表現の冗長性を活用し、アーキテクチャ変更やKVキャッシュ共有を必要としない静的・タスク非依存の推論時層スキップ手法を提案します。ネイティブdLLMは推論・コード生成ベンチマークで90%以上の性能を維持しつつ最大18.75%のFLOPs削減を達成したのに対し、ARモデルは同等のスキップ条件下で性能が急激に劣化しました。これらの結果は学習目標と表現構造の関連性を明示するとともに、キャッシュ機構と直交する実用的な効率化手法を可能にします。
English
Autoregressive (AR) language models form representations incrementally through left-to-right prediction, whereas diffusion language models (dLLMs) are trained via full-sequence denoising. Although recent dLLMs match AR performance, it remains unclear whether diffusion objectives fundamentally reshape internal representations across depth. We perform the first layer- and token-wise representational analysis comparing native dLLMs (LLaDA), native AR models (Qwen2.5), and AR-initialized dLLMs (Dream-7B). We find that diffusion objectives result in different, more hierarchical abstractions with substantial early-layer redundancy and reduced recency bias, while AR objectives produce tightly coupled, depth-dependent representations. Critically, AR-initialized dLLMs retain AR-like representational dynamics despite diffusion training, revealing persistent initialization bias. Leveraging this observed representational redundancy, we introduce a static, task-agnostic inference-time layer-skipping method requiring no architectural changes or KV-cache sharing. Native dLLMs achieve up to 18.75% FLOPs reduction while preserving over 90% performance on reasoning and code generation benchmarks, whereas AR models degrade sharply under comparable skipping. These results link training objectives to representational structure and enable practical, cache-orthogonal efficiency gains.