Efficiënte Parallelle Samplers voor Recurrent-Diepte Modellen en Hun Verbinding met Diffusie Taalmodellen

Samenvatting

Taalmodellen met recurrente diepte, ook wel universeel of gelust genoemd wanneer rekening wordt gehouden met transformers, worden gedefinieerd door hun vermogen om hun berekeningen uit te breiden door de herhaling van lagen. Recente inspanningen op het gebied van vooraf trainen hebben aangetoond dat deze architecturen kunnen worden opgeschaald voor moderne taalmodelleertaken, terwijl ze voordelen vertonen bij redeneertaken. In dit werk onderzoeken we de relatie tussen modellen met recurrente diepte en diffusie-taalmmodellen. Op basis van hun overeenkomsten ontwikkelen we een nieuwe diffusie-forcerende sampler voor deze modellen om de generatie te versnellen. De sampler vordert door nieuwe tokens te decoderen bij elke voorwaartse passage van het model, terwijl de latente toestanden van deze tokens parallel verder kunnen worden verfijnd door herhaling. Theoretisch gezien is generatie met onze sampler strikt expressiever dan de baseline autoregressieve generatie met hetzelfde tijdsbudget op moderne hardware. Bovendien kan deze sampler, gebaseerd op principes uit de diffusieliteratuur, direct worden toegepast op bestaande 3,5B recurrente-diepte-transformers zonder enige afstemming, wat leidt tot een snelheidswinst van tot wel 5x. Onze bevindingen bieden niet alleen een efficiënt mechanisme voor het paralleliseren van de extra berekeningen in modellen met recurrente diepte tijdens inferentie, maar suggereren ook dat dergelijke modellen natuurlijk kunnen worden gezien als sterke continue, zij het causale, diffusie-taalmmodellen.

English

Language models with recurrent depth, also referred to as universal or looped when considering transformers, are defined by the capacity to increase their computation through the repetition of layers. Recent efforts in pretraining have demonstrated that these architectures can scale to modern language modeling tasks while exhibiting advantages in reasoning tasks. In this work, we examine the relationship between recurrent-depth models and diffusion language models. Building on their similarities, we develop a new diffusion forcing sampler for these models to accelerate generation. The sampler advances by decoding new tokens at every forward pass of the model, while the latent states of these tokens can be further refined in parallel through recurrence. Theoretically, generation with our sampler is strictly more expressive than the baseline autoregressive generation using the same time budget on modern hardware. Moreover, this sampler, based on principles from diffusion literature, can be directly applied to existing 3.5B recurrent-depth transformers without any tuning, leading to up to a 5x speedup. Consequently, our findings not only provide an efficient mechanism for parallelizing the extra computation in recurrent-depth models at inference, but also suggest that such models can be naturally viewed as strong continuous, though causal, diffusion language models.

Efficiënte Parallelle Samplers voor Recurrent-Diepte Modellen en Hun Verbinding met Diffusie Taalmodellen

Efficient Parallel Samplers for Recurrent-Depth Models and Their Connection to Diffusion Language Models

Samenvatting

Support