ChatPaper.aiChatPaper

Эффективные параллельные сэмплеры для моделей с рекуррентной глубиной и их связь с диффузионными языковыми моделями

Efficient Parallel Samplers for Recurrent-Depth Models and Their Connection to Diffusion Language Models

October 16, 2025
Авторы: Jonas Geiping, Xinyu Yang, Guinan Su
cs.AI

Аннотация

Языковые модели с рекуррентной глубиной, также называемые универсальными или зацикленными в контексте трансформеров, определяются способностью увеличивать свои вычислительные возможности за счёт повторения слоёв. Недавние исследования в области предварительного обучения показали, что такие архитектуры могут масштабироваться для современных задач языкового моделирования, демонстрируя при этом преимущества в задачах, требующих рассуждений. В данной работе мы исследуем взаимосвязь между моделями с рекуррентной глубиной и диффузионными языковыми моделями. Опираясь на их сходства, мы разрабатываем новый диффузионный сэмплер с принуждением для таких моделей, чтобы ускорить генерацию. Этот сэмплер продвигается, декодируя новые токены на каждом прямом проходе модели, в то время как скрытые состояния этих токенов могут быть дополнительно уточнены параллельно через рекурсию. Теоретически генерация с использованием нашего сэмплера строго более выразительна, чем базовый авторегрессивный подход при одинаковом временном бюджете на современном оборудовании. Более того, этот сэмплер, основанный на принципах из литературы по диффузии, может быть напрямую применён к существующим 3,5-миллиардным трансформерам с рекуррентной глубиной без какой-либо настройки, обеспечивая ускорение до 5 раз. Таким образом, наши результаты не только предоставляют эффективный механизм для параллелизации дополнительных вычислений в моделях с рекуррентной глубиной на этапе вывода, но также предполагают, что такие модели могут естественным образом рассматриваться как мощные непрерывные, хотя и причинно-следственные, диффузионные языковые модели.
English
Language models with recurrent depth, also referred to as universal or looped when considering transformers, are defined by the capacity to increase their computation through the repetition of layers. Recent efforts in pretraining have demonstrated that these architectures can scale to modern language modeling tasks while exhibiting advantages in reasoning tasks. In this work, we examine the relationship between recurrent-depth models and diffusion language models. Building on their similarities, we develop a new diffusion forcing sampler for these models to accelerate generation. The sampler advances by decoding new tokens at every forward pass of the model, while the latent states of these tokens can be further refined in parallel through recurrence. Theoretically, generation with our sampler is strictly more expressive than the baseline autoregressive generation using the same time budget on modern hardware. Moreover, this sampler, based on principles from diffusion literature, can be directly applied to existing 3.5B recurrent-depth transformers without any tuning, leading to up to a 5x speedup. Consequently, our findings not only provide an efficient mechanism for parallelizing the extra computation in recurrent-depth models at inference, but also suggest that such models can be naturally viewed as strong continuous, though causal, diffusion language models.
PDF62October 17, 2025