Pule para a Parte Boa: Estrutura de Representação e Pulo de Camadas em Tempo de Inferência em Modelos de Difusão vs. LLMs Autoregressivos

Resumo

Os modelos de linguagem autorregressivos (AR) formam representações incrementalmente através da previsão esquerda-para-direita, enquanto os modelos de linguagem de difusão (dLLMs) são treinados via desruído de sequência completa. Embora dLLMs recentes igualem o desempenho AR, permanece incerto se os objetivos de difusão remodelam fundamentalmente as representações internas ao longo da profundidade da rede. Realizamos a primeira análise representacional por camada e por *token* comparando dLLMs nativos (LLaDA), modelos AR nativos (Qwen2.5) e dLLMs inicializados com AR (Dream-7B). Descobrimos que os objetivos de difusão resultam em abstrações diferentes e mais hierárquicas, com redundância substancial nas camadas iniciais e viés de recência reduzido, enquanto os objetivos AR produzem representações fortemente acopladas e dependentes da profundidade. Criticamente, os dLLMs inicializados com AR mantêm dinâmicas representacionais semelhantes às do AR, apesar do treinamento por difusão, revelando um viés de inicialização persistente. Aproveitando essa redundância representacional observada, introduzimos um método estático e agnóstico à tarefa de salto de camadas (*layer-skipping*) durante a inferência, que não requer alterações arquiteturais nem compartilhamento de cache KV. Os dLLMs nativos alcançam uma redução de até 18,75% nos FLOPS, preservando mais de 90% do desempenho em benchmarks de raciocínio e geração de código, enquanto os modelos AR degradam-se acentuadamente sob um salto comparável. Esses resultados conectam objetivos de treinamento à estrutura representacional e permitem ganhos de eficiência práticos e ortogonais ao cache.

English

Autoregressive (AR) language models form representations incrementally through left-to-right prediction, whereas diffusion language models (dLLMs) are trained via full-sequence denoising. Although recent dLLMs match AR performance, it remains unclear whether diffusion objectives fundamentally reshape internal representations across depth. We perform the first layer- and token-wise representational analysis comparing native dLLMs (LLaDA), native AR models (Qwen2.5), and AR-initialized dLLMs (Dream-7B). We find that diffusion objectives result in different, more hierarchical abstractions with substantial early-layer redundancy and reduced recency bias, while AR objectives produce tightly coupled, depth-dependent representations. Critically, AR-initialized dLLMs retain AR-like representational dynamics despite diffusion training, revealing persistent initialization bias. Leveraging this observed representational redundancy, we introduce a static, task-agnostic inference-time layer-skipping method requiring no architectural changes or KV-cache sharing. Native dLLMs achieve up to 18.75% FLOPs reduction while preserving over 90% performance on reasoning and code generation benchmarks, whereas AR models degrade sharply under comparable skipping. These results link training objectives to representational structure and enable practical, cache-orthogonal efficiency gains.

Pule para a Parte Boa: Estrutura de Representação e Pulo de Camadas em Tempo de Inferência em Modelos de Difusão vs. LLMs Autoregressivos

Skip to the Good Part: Representation Structure & Inference-Time Layer Skipping in Diffusion vs. Autoregressive LLMs

Resumo

Support