ChatPaper.aiChatPaper

Muestreadores paralelos eficientes para modelos de profundidad recurrente y su conexión con modelos de lenguaje basados en difusión

Efficient Parallel Samplers for Recurrent-Depth Models and Their Connection to Diffusion Language Models

October 16, 2025
Autores: Jonas Geiping, Xinyu Yang, Guinan Su
cs.AI

Resumen

Los modelos de lenguaje con profundidad recurrente, también denominados universales o en bucle cuando se consideran transformadores, se definen por su capacidad para incrementar su procesamiento mediante la repetición de capas. Esfuerzos recientes en preentrenamiento han demostrado que estas arquitecturas pueden escalar a tareas modernas de modelado de lenguaje, mostrando ventajas en tareas de razonamiento. En este trabajo, examinamos la relación entre los modelos de profundidad recurrente y los modelos de lenguaje de difusión. Basándonos en sus similitudes, desarrollamos un nuevo muestreador de forzamiento de difusión para estos modelos con el fin de acelerar la generación. El muestreador avanza decodificando nuevos tokens en cada paso hacia adelante del modelo, mientras que los estados latentes de estos tokens pueden refinarse en paralelo mediante recurrencia. Teóricamente, la generación con nuestro muestreador es estrictamente más expresiva que la generación autoregresiva de referencia utilizando el mismo presupuesto de tiempo en hardware moderno. Además, este muestreador, basado en principios de la literatura de difusión, puede aplicarse directamente a transformadores de profundidad recurrente de 3.5B sin necesidad de ajustes, logrando una aceleración de hasta 5 veces. En consecuencia, nuestros hallazgos no solo proporcionan un mecanismo eficiente para paralelizar el procesamiento adicional en modelos de profundidad recurrente durante la inferencia, sino que también sugieren que dichos modelos pueden ser vistos naturalmente como modelos de lenguaje de difusión continuos, aunque causales, y robustos.
English
Language models with recurrent depth, also referred to as universal or looped when considering transformers, are defined by the capacity to increase their computation through the repetition of layers. Recent efforts in pretraining have demonstrated that these architectures can scale to modern language modeling tasks while exhibiting advantages in reasoning tasks. In this work, we examine the relationship between recurrent-depth models and diffusion language models. Building on their similarities, we develop a new diffusion forcing sampler for these models to accelerate generation. The sampler advances by decoding new tokens at every forward pass of the model, while the latent states of these tokens can be further refined in parallel through recurrence. Theoretically, generation with our sampler is strictly more expressive than the baseline autoregressive generation using the same time budget on modern hardware. Moreover, this sampler, based on principles from diffusion literature, can be directly applied to existing 3.5B recurrent-depth transformers without any tuning, leading to up to a 5x speedup. Consequently, our findings not only provide an efficient mechanism for parallelizing the extra computation in recurrent-depth models at inference, but also suggest that such models can be naturally viewed as strong continuous, though causal, diffusion language models.
PDF62October 17, 2025