ChatPaper.aiChatPaper

Échantillonneurs parallèles efficaces pour les modèles à profondeur récurrente et leur lien avec les modèles de langage par diffusion

Efficient Parallel Samplers for Recurrent-Depth Models and Their Connection to Diffusion Language Models

October 16, 2025
papers.authors: Jonas Geiping, Xinyu Yang, Guinan Su
cs.AI

papers.abstract

Les modèles de langage à profondeur récurrente, également appelés universels ou en boucle dans le contexte des transformateurs, se définissent par leur capacité à augmenter leur puissance de calcul grâce à la répétition de couches. Les récents efforts en matière de pré-entraînement ont démontré que ces architectures peuvent s'adapter aux tâches modernes de modélisation du langage tout en présentant des avantages dans les tâches de raisonnement. Dans ce travail, nous examinons la relation entre les modèles à profondeur récurrente et les modèles de langage par diffusion. En nous appuyant sur leurs similitudes, nous développons un nouvel échantillonneur de forçage par diffusion pour ces modèles afin d'accélérer la génération. Cet échantillonneur progresse en décodant de nouveaux tokens à chaque passage avant du modèle, tandis que les états latents de ces tokens peuvent être affinés en parallèle grâce à la récurrence. Théoriquement, la génération avec notre échantillonneur est strictement plus expressive que la génération autorégressive de référence utilisant le même budget temporel sur du matériel moderne. De plus, cet échantillonneur, basé sur des principes issus de la littérature sur la diffusion, peut être directement appliqué à des transformeurs à profondeur récurrente de 3,5 milliards de paramètres sans aucun réglage, conduisant à une accélération pouvant atteindre un facteur 5. Par conséquent, nos résultats fournissent non seulement un mécanisme efficace pour paralléliser le calcul supplémentaire dans les modèles à profondeur récurrente lors de l'inférence, mais suggèrent également que ces modèles peuvent être naturellement considérés comme de puissants modèles de langage par diffusion continus, bien que causaux.
English
Language models with recurrent depth, also referred to as universal or looped when considering transformers, are defined by the capacity to increase their computation through the repetition of layers. Recent efforts in pretraining have demonstrated that these architectures can scale to modern language modeling tasks while exhibiting advantages in reasoning tasks. In this work, we examine the relationship between recurrent-depth models and diffusion language models. Building on their similarities, we develop a new diffusion forcing sampler for these models to accelerate generation. The sampler advances by decoding new tokens at every forward pass of the model, while the latent states of these tokens can be further refined in parallel through recurrence. Theoretically, generation with our sampler is strictly more expressive than the baseline autoregressive generation using the same time budget on modern hardware. Moreover, this sampler, based on principles from diffusion literature, can be directly applied to existing 3.5B recurrent-depth transformers without any tuning, leading to up to a 5x speedup. Consequently, our findings not only provide an efficient mechanism for parallelizing the extra computation in recurrent-depth models at inference, but also suggest that such models can be naturally viewed as strong continuous, though causal, diffusion language models.
PDF62October 17, 2025