Ir al Grano: Estructura de Representación y Omisión de Capas en Tiempo de Inferencia en Modelos de Difusión vs. LLMs Autoregresivos
Skip to the Good Part: Representation Structure & Inference-Time Layer Skipping in Diffusion vs. Autoregressive LLMs
March 8, 2026
Autores: Raghavv Goel, Risheek Garrepalli, Sudhanshu Agrawal, Chris Lott, Mingu Lee, Fatih Porikli
cs.AI
Resumen
Los modelos de lenguaje autorregresivos (AR) construyen representaciones de forma incremental mediante predicción izquierda-a-derecha, mientras que los modelos de lenguaje de difusión (dLLMs) se entrenan mediante desruido de secuencia completa. Aunque los dLLMs recientes igualan el rendimiento AR, aún no está claro si los objetivos de difusión reconfiguran fundamentalmente las representaciones internas a lo largo de la profundidad de la red. Realizamos el primer análisis representacional por capas y tokens comparando dLLMs nativos (LLaDA), modelos AR nativos (Qwen2.5) y dLLMs inicializados como AR (Dream-7B). Encontramos que los objetivos de difusión producen abstracciones diferentes y más jerárquicas, con redundancia sustancial en capas tempranas y un sesgo de recencia reducido, mientras que los objetivos AR generan representaciones estrechamente acopladas y dependientes de la profundidad. Críticamente, los dLLMs inicializados como AR mantienen dinámicas representacionales similares a AR a pesar del entrenamiento por difusión, revelando un sesgo de inicialización persistente. Aprovechando esta redundancia representacional observada, introducimos un método estático y agnóstico a la tarea de salto de capas durante la inferencia, que no requiere cambios arquitectónicos ni compartición de caché KV. Los dLLMs nativos logran hasta un 18.75% de reducción en FLOPS manteniendo más del 90% del rendimiento en benchmarks de razonamiento y generación de código, mientras que los modelos AR se degradan drásticamente con un salto comparable. Estos resultados vinculan los objetivos de entrenamiento con la estructura representacional y permiten ganancias de eficiencia prácticas y ortogonales a la caché.
English
Autoregressive (AR) language models form representations incrementally through left-to-right prediction, whereas diffusion language models (dLLMs) are trained via full-sequence denoising. Although recent dLLMs match AR performance, it remains unclear whether diffusion objectives fundamentally reshape internal representations across depth. We perform the first layer- and token-wise representational analysis comparing native dLLMs (LLaDA), native AR models (Qwen2.5), and AR-initialized dLLMs (Dream-7B). We find that diffusion objectives result in different, more hierarchical abstractions with substantial early-layer redundancy and reduced recency bias, while AR objectives produce tightly coupled, depth-dependent representations. Critically, AR-initialized dLLMs retain AR-like representational dynamics despite diffusion training, revealing persistent initialization bias. Leveraging this observed representational redundancy, we introduce a static, task-agnostic inference-time layer-skipping method requiring no architectural changes or KV-cache sharing. Native dLLMs achieve up to 18.75% FLOPs reduction while preserving over 90% performance on reasoning and code generation benchmarks, whereas AR models degrade sharply under comparable skipping. These results link training objectives to representational structure and enable practical, cache-orthogonal efficiency gains.