Passer à l'essentiel : Structure des représentations et saut de couches à l'inférence dans les modèles de diffusion vs. les grands modèles de langage autorégressifs

Résumé

Les modèles de langage autorégressifs (AR) forment des représentations de manière incrémentale par prédiction gauche-droite, tandis que les modèles de langage à diffusion (dLLM) sont entraînés via un débruitage de séquence complète. Bien que les dLLM récents égalent les performances des modèles AR, il reste incertain si les objectifs de diffusion remodèlent fondamentalement les représentations internes en profondeur. Nous réalisons la première analyse représentationnelle couche-par-couche et token-par-token comparant les dLLM natifs (LLaDA), les modèles AR natifs (Qwen2.5) et les dLLM initialisés par AR (Dream-7B). Nous constatons que les objectifs de diffusion produisent des abstractions différentes, plus hiérarchiques, avec une redondance importante dans les couches précoces et un biais de récence réduit, tandis que les objectifs AR génèrent des représentations étroitement couplées et dépendantes de la profondeur. Fait crucial, les dLLM initialisés par AR conservent une dynamique représentationnelle similaire à l'AR malgré l'entraînement par diffusion, révélant un biais d'initialisation persistant. Tirant parti de cette redondance représentationnelle observée, nous introduisons une méthode statique et agnostique de la tâche, de saut de couches à l'inférence, ne nécessitant aucune modification architecturale ni partage de cache KV. Les dLLM natifs atteignent jusqu'à 18,75 % de réduction de FLOPs tout en conservant plus de 90 % des performances sur des benchmarks de raisonnement et de génération de code, tandis que les modèles AR se dégradent fortement avec un saut comparable. Ces résultats établissent un lien entre objectifs d'entraînement et structure représentationnelle, et permettent des gains d'efficacité pratiques et orthogonaux au cache.

English

Autoregressive (AR) language models form representations incrementally through left-to-right prediction, whereas diffusion language models (dLLMs) are trained via full-sequence denoising. Although recent dLLMs match AR performance, it remains unclear whether diffusion objectives fundamentally reshape internal representations across depth. We perform the first layer- and token-wise representational analysis comparing native dLLMs (LLaDA), native AR models (Qwen2.5), and AR-initialized dLLMs (Dream-7B). We find that diffusion objectives result in different, more hierarchical abstractions with substantial early-layer redundancy and reduced recency bias, while AR objectives produce tightly coupled, depth-dependent representations. Critically, AR-initialized dLLMs retain AR-like representational dynamics despite diffusion training, revealing persistent initialization bias. Leveraging this observed representational redundancy, we introduce a static, task-agnostic inference-time layer-skipping method requiring no architectural changes or KV-cache sharing. Native dLLMs achieve up to 18.75% FLOPs reduction while preserving over 90% performance on reasoning and code generation benchmarks, whereas AR models degrade sharply under comparable skipping. These results link training objectives to representational structure and enable practical, cache-orthogonal efficiency gains.

Passer à l'essentiel : Structure des représentations et saut de couches à l'inférence dans les modèles de diffusion vs. les grands modèles de langage autorégressifs

Skip to the Good Part: Representation Structure & Inference-Time Layer Skipping in Diffusion vs. Autoregressive LLMs

Résumé

Support