Salta alla Parte Interessante: Struttura della Rappresentazione e Salto di Strati al Momento dell'Inferenza nei Modelli di Diffusione rispetto ai LLM Autoregressivi

Abstract

I modelli linguistici autoregressivi (AR) costruiscono le rappresentazioni in modo incrementale attraverso la predizione da sinistra a destra, mentre i modelli linguistici a diffusione (dLLM) vengono addestrati tramite la denoising dell'intera sequenza. Sebbene i dLLM recenti eguaglino le prestazioni AR, non è ancora chiaro se gli obiettivi di diffusione rimodellino fondamentalmente le rappresentazioni interne attraverso la profondità del modello. Eseguiamo la prima analisi rappresentazionale a livello di layer e di token confrontando dLLM nativi (LLaDA), modelli AR nativi (Qwen2.5) e dLLM inizializzati come AR (Dream-7B). Scopriamo che gli obiettivi di diffusione producono astrazioni diverse e più gerarchiche, con una sostanziale ridondanza negli strati iniziali e un bias di recenza ridotto, mentre gli obiettivi AR producono rappresentazioni strettamente accoppiate e dipendenti dalla profondità. Fattore cruciale, i dLLM inizializzati come AR mantengono dinamiche rappresentazionali simili all'AR nonostante l'addestramento a diffusione, rivelando un persistente bias di inizializzazione. Sfruttando questa ridondanza rappresentativa osservata, introduciamo un metodo statico, agnostico al compito, di salto dei layer (*layer-skipping*) durante l'inferenza, che non richiede modifiche architetturali né condivisione della KV-cache. I dLLM nativi raggiungono una riduzione dei FLOPs fino al 18,75% preservando oltre il 90% delle prestazioni su benchmark di ragionamento e generazione di codice, mentre i modelli AR si degradano bruscamente con un salto comparabile. Questi risultati collegano gli obiettivi di addestramento alla struttura rappresentativa e abilitano guadagni di efficienza pratici e ortogonali alla cache.

English

Autoregressive (AR) language models form representations incrementally through left-to-right prediction, whereas diffusion language models (dLLMs) are trained via full-sequence denoising. Although recent dLLMs match AR performance, it remains unclear whether diffusion objectives fundamentally reshape internal representations across depth. We perform the first layer- and token-wise representational analysis comparing native dLLMs (LLaDA), native AR models (Qwen2.5), and AR-initialized dLLMs (Dream-7B). We find that diffusion objectives result in different, more hierarchical abstractions with substantial early-layer redundancy and reduced recency bias, while AR objectives produce tightly coupled, depth-dependent representations. Critically, AR-initialized dLLMs retain AR-like representational dynamics despite diffusion training, revealing persistent initialization bias. Leveraging this observed representational redundancy, we introduce a static, task-agnostic inference-time layer-skipping method requiring no architectural changes or KV-cache sharing. Native dLLMs achieve up to 18.75% FLOPs reduction while preserving over 90% performance on reasoning and code generation benchmarks, whereas AR models degrade sharply under comparable skipping. These results link training objectives to representational structure and enable practical, cache-orthogonal efficiency gains.

Salta alla Parte Interessante: Struttura della Rappresentazione e Salto di Strati al Momento dell'Inferenza nei Modelli di Diffusione rispetto ai LLM Autoregressivi

Skip to the Good Part: Representation Structure & Inference-Time Layer Skipping in Diffusion vs. Autoregressive LLMs

Abstract

Support