Пропуск к лучшей части: структура представлений и пропуск слоев во время вывода в диффузионных моделях против авторегрессионных языковых моделей

Аннотация

Авторегрессионные (AR) языковые модели формируют репрезентации инкрементально посредством предсказания слева направо, в то время как диффузионные языковые модели (dLLM) обучаются через деноизинг полной последовательности. Хотя современные dLLM достигают производительности AR-моделей, остаётся неясным, преобразуют ли диффузионные цели фундаментально внутренние репрезентации по глубине сети. Мы проводим первый послойный и поэлементный репрезентационный анализ, сравнивая нативные dLLM (LLaDA), нативные AR-модели (Qwen2.5) и dLLM, инициализированные AR-моделями (Dream-7B). Мы обнаруживаем, что диффузионные цели приводят к иным, более иерархическим абстракциям со значительной избыточностью на ранних слоях и сниженной склонностью к недавним элементам, тогда как AR-цели порождают тесно связанные, зависящие от глубины репрезентации. Ключевой вывод: dLLM, инициализированные AR-моделями, сохраняют AR-подобную репрезентационную динамику несмотря на диффузионное обучение, что свидетельствует о сохраняющейся предвзятости инициализации. Используя наблюдаемую репрезентационную избыточность, мы представляем статический, агностичный к задаче метод пропуска слоёв на этапе вывода, не требующий изменений архитектуры или разделения KV-кэша. Нативные dLLM достигают сокращения FLOPs до 18,75% при сохранении более 90% производительности на тестах по логическому мышлению и генерации кода, тогда как AR-модели резко деградируют при сопоставимом пропуске. Эти результаты связывают цели обучения со структурой репрезентаций и позволяют достичь практического выигрыша в эффективности, ортогонального к механизму кэширования.

English

Autoregressive (AR) language models form representations incrementally through left-to-right prediction, whereas diffusion language models (dLLMs) are trained via full-sequence denoising. Although recent dLLMs match AR performance, it remains unclear whether diffusion objectives fundamentally reshape internal representations across depth. We perform the first layer- and token-wise representational analysis comparing native dLLMs (LLaDA), native AR models (Qwen2.5), and AR-initialized dLLMs (Dream-7B). We find that diffusion objectives result in different, more hierarchical abstractions with substantial early-layer redundancy and reduced recency bias, while AR objectives produce tightly coupled, depth-dependent representations. Critically, AR-initialized dLLMs retain AR-like representational dynamics despite diffusion training, revealing persistent initialization bias. Leveraging this observed representational redundancy, we introduce a static, task-agnostic inference-time layer-skipping method requiring no architectural changes or KV-cache sharing. Native dLLMs achieve up to 18.75% FLOPs reduction while preserving over 90% performance on reasoning and code generation benchmarks, whereas AR models degrade sharply under comparable skipping. These results link training objectives to representational structure and enable practical, cache-orthogonal efficiency gains.

Пропуск к лучшей части: структура представлений и пропуск слоев во время вывода в диффузионных моделях против авторегрессионных языковых моделей

Skip to the Good Part: Representation Structure & Inference-Time Layer Skipping in Diffusion vs. Autoregressive LLMs

Аннотация

Support