Sla de saaie stukken over: Representatiestructuur en het overslaan van lagen tijdens inferentie in Diffusion vs. Autoregressieve LLM's
Skip to the Good Part: Representation Structure & Inference-Time Layer Skipping in Diffusion vs. Autoregressive LLMs
March 8, 2026
Auteurs: Raghavv Goel, Risheek Garrepalli, Sudhanshu Agrawal, Chris Lott, Mingu Lee, Fatih Porikli
cs.AI
Samenvatting
Autoregressieve (AR) taalmodellen vormen representaties incrementeel via links-naar-rechtsvoorspelling, terwijl diffusietaalmodellen (dLLM's) worden getraind via volledige-sequentie-denoising. Hoewel recente dLLM's de AR-prestaties evenaren, is het nog onduidelijk of diffusiedoelstellingen de interne representaties fundamenteel hervormen over de diepte heen. Wij voeren de eerste laag- en tokengewijze representatieanalyse uit, waarbij we native dLLM's (LLaDA), native AR-modellen (Qwen2.5) en AR-geïnitialiseerde dLLM's (Dream-7B) vergelijken. Wij constateren dat diffusiedoelstellingen leiden tot andere, meer hiërarchische abstracties met aanzienlijke redundantie in de vroege lagen en verminderde recency bias, terwijl AR-doelstellingen sterk gekoppelde, diepte-afhankelijke representaties produceren. Cruciaal is dat AR-geïnitialiseerde dLLM's AR-achtige representatiedynamiek behouden ondanks diffusietraining, wat een hardnekkige initialisatiebias onthult. Gebruikmakend van deze waargenomen representatieredundantie, introduceren we een statische, taakonafhankelijke laagoverslaanmethode tijdens inferentie, waarvoor geen architectuurwijzigingen of KV-cache-deling nodig zijn. Native dLLM's bereiken een FLOPs-reductie tot 18,75% terwijl ze meer dan 90% van hun prestaties behouden op redeneer- en codeergeneratiebenchmarks, terwijl AR-modellen sterk achteruitgaan onder vergelijkbaar overslaan. Deze resultaten koppelen trainingsdoelstellingen aan representatiestructuur en maken praktische, cache-orthogonale efficiëntiewinsten mogelijk.
English
Autoregressive (AR) language models form representations incrementally through left-to-right prediction, whereas diffusion language models (dLLMs) are trained via full-sequence denoising. Although recent dLLMs match AR performance, it remains unclear whether diffusion objectives fundamentally reshape internal representations across depth. We perform the first layer- and token-wise representational analysis comparing native dLLMs (LLaDA), native AR models (Qwen2.5), and AR-initialized dLLMs (Dream-7B). We find that diffusion objectives result in different, more hierarchical abstractions with substantial early-layer redundancy and reduced recency bias, while AR objectives produce tightly coupled, depth-dependent representations. Critically, AR-initialized dLLMs retain AR-like representational dynamics despite diffusion training, revealing persistent initialization bias. Leveraging this observed representational redundancy, we introduce a static, task-agnostic inference-time layer-skipping method requiring no architectural changes or KV-cache sharing. Native dLLMs achieve up to 18.75% FLOPs reduction while preserving over 90% performance on reasoning and code generation benchmarks, whereas AR models degrade sharply under comparable skipping. These results link training objectives to representational structure and enable practical, cache-orthogonal efficiency gains.