Direkt zum Wesentlichen: Repräsentationsstruktur und Überspringen von Schichten zur Inferenzzeit bei Diffusionsmodellen im Vergleich zu autoregressiven LLMs

Zusammenfassung

Autoregressive (AR-)Sprachmodelle bilden Repräsentationen inkrementell durch Vorhersage von links nach rechts, während Diffusions-Sprachmodelle (dLLMs) durch Denoisen vollständiger Sequenzen trainiert werden. Obwohl neuere dLLMs mit der AR-Leistung mithalten können, bleibt unklar, ob Diffusionsziele die internen Repräsentationen über die Tiefe hinweg grundlegend verändern. Wir führen die erste schicht- und tokenweise Repräsentationsanalyse durch, die native dLLMs (LLaDA), native AR-Modelle (Qwen2.5) und AR-initialisierte dLLMs (Dream-7B) vergleicht. Wir stellen fest, dass Diffusionsziele zu anderen, hierarchischeren Abstraktionen mit erheblicher Redundanz in frühen Schichten und reduziertem Recency-Bias führen, während AR-Ziele eng gekoppelte, tiefenabhängige Repräsentationen erzeugen. Entscheidend ist, dass AR-initialisierte dLLMs trotz Diffusionstraining AR-ähnliche Repräsentationsdynamik beibehalten, was einen anhaltenden Initialisierungs-Bias offenbart. Indem wir diese beobachtete Repräsentationsredundanz nutzen, führen wir eine statische, aufgabenagnostische Methode zum Überspringen von Schichten zur Inferenzzeit ein, die keine Architekturänderungen oder KV-Cache-Sharing erfordert. Native dLLMs erreichen eine FLOPs-Reduktion von bis zu 18,75 % bei gleichzeitiger Beibehaltung von über 90 % der Leistung in Reasoning- und Code-Generierungs-Benchmarks, während AR-Modelle unter vergleichbarem Überspringen stark abfallen. Diese Ergebnisse verknüpfen Trainingsziele mit der Repräsentationsstruktur und ermöglichen praktische, cache-orthogonale Effizienzgewinne.

English

Autoregressive (AR) language models form representations incrementally through left-to-right prediction, whereas diffusion language models (dLLMs) are trained via full-sequence denoising. Although recent dLLMs match AR performance, it remains unclear whether diffusion objectives fundamentally reshape internal representations across depth. We perform the first layer- and token-wise representational analysis comparing native dLLMs (LLaDA), native AR models (Qwen2.5), and AR-initialized dLLMs (Dream-7B). We find that diffusion objectives result in different, more hierarchical abstractions with substantial early-layer redundancy and reduced recency bias, while AR objectives produce tightly coupled, depth-dependent representations. Critically, AR-initialized dLLMs retain AR-like representational dynamics despite diffusion training, revealing persistent initialization bias. Leveraging this observed representational redundancy, we introduce a static, task-agnostic inference-time layer-skipping method requiring no architectural changes or KV-cache sharing. Native dLLMs achieve up to 18.75% FLOPs reduction while preserving over 90% performance on reasoning and code generation benchmarks, whereas AR models degrade sharply under comparable skipping. These results link training objectives to representational structure and enable practical, cache-orthogonal efficiency gains.

Direkt zum Wesentlichen: Repräsentationsstruktur und Überspringen von Schichten zur Inferenzzeit bei Diffusionsmodellen im Vergleich zu autoregressiven LLMs

Skip to the Good Part: Representation Structure & Inference-Time Layer Skipping in Diffusion vs. Autoregressive LLMs

Zusammenfassung

Support