Efficiënte Parallelle Samplers voor Recurrent-Diepte Modellen en Hun Verbinding met Diffusie Taalmodellen
Efficient Parallel Samplers for Recurrent-Depth Models and Their Connection to Diffusion Language Models
October 16, 2025
Auteurs: Jonas Geiping, Xinyu Yang, Guinan Su
cs.AI
Samenvatting
Taalmodellen met recurrente diepte, ook wel universeel of gelust genoemd wanneer rekening wordt gehouden met transformers, worden gedefinieerd door hun vermogen om hun berekeningen uit te breiden door de herhaling van lagen. Recente inspanningen op het gebied van vooraf trainen hebben aangetoond dat deze architecturen kunnen worden opgeschaald voor moderne taalmodelleertaken, terwijl ze voordelen vertonen bij redeneertaken. In dit werk onderzoeken we de relatie tussen modellen met recurrente diepte en diffusie-taalmmodellen. Op basis van hun overeenkomsten ontwikkelen we een nieuwe diffusie-forcerende sampler voor deze modellen om de generatie te versnellen. De sampler vordert door nieuwe tokens te decoderen bij elke voorwaartse passage van het model, terwijl de latente toestanden van deze tokens parallel verder kunnen worden verfijnd door herhaling. Theoretisch gezien is generatie met onze sampler strikt expressiever dan de baseline autoregressieve generatie met hetzelfde tijdsbudget op moderne hardware. Bovendien kan deze sampler, gebaseerd op principes uit de diffusieliteratuur, direct worden toegepast op bestaande 3,5B recurrente-diepte-transformers zonder enige afstemming, wat leidt tot een snelheidswinst van tot wel 5x. Onze bevindingen bieden niet alleen een efficiënt mechanisme voor het paralleliseren van de extra berekeningen in modellen met recurrente diepte tijdens inferentie, maar suggereren ook dat dergelijke modellen natuurlijk kunnen worden gezien als sterke continue, zij het causale, diffusie-taalmmodellen.
English
Language models with recurrent depth, also referred to as universal or looped
when considering transformers, are defined by the capacity to increase their
computation through the repetition of layers. Recent efforts in pretraining
have demonstrated that these architectures can scale to modern language
modeling tasks while exhibiting advantages in reasoning tasks. In this work, we
examine the relationship between recurrent-depth models and diffusion language
models. Building on their similarities, we develop a new diffusion forcing
sampler for these models to accelerate generation. The sampler advances by
decoding new tokens at every forward pass of the model, while the latent states
of these tokens can be further refined in parallel through recurrence.
Theoretically, generation with our sampler is strictly more expressive than the
baseline autoregressive generation using the same time budget on modern
hardware. Moreover, this sampler, based on principles from diffusion
literature, can be directly applied to existing 3.5B recurrent-depth
transformers without any tuning, leading to up to a 5x speedup. Consequently,
our findings not only provide an efficient mechanism for parallelizing the
extra computation in recurrent-depth models at inference, but also suggest that
such models can be naturally viewed as strong continuous, though causal,
diffusion language models.