ChatPaper.aiChatPaper

Campionatori Paralleli Efficienti per Modelli a Profondità Ricorrente e la Loro Connessione con Modelli Linguistici di Diffusione

Efficient Parallel Samplers for Recurrent-Depth Models and Their Connection to Diffusion Language Models

October 16, 2025
Autori: Jonas Geiping, Xinyu Yang, Guinan Su
cs.AI

Abstract

I modelli linguistici con profondità ricorrente, anche definiti universali o con loop quando si considerano i transformer, sono caratterizzati dalla capacità di aumentare il loro calcolo attraverso la ripetizione di strati. Recenti sforzi nel pre-addestramento hanno dimostrato che queste architetture possono scalare per affrontare compiti moderni di modellazione linguistica, mostrando vantaggi nei compiti di ragionamento. In questo lavoro, esaminiamo la relazione tra modelli a profondità ricorrente e modelli linguistici di diffusione. Basandoci sulle loro somiglianze, sviluppiamo un nuovo campionatore di forzatura della diffusione per questi modelli, al fine di accelerare la generazione. Il campionatore procede decodificando nuovi token ad ogni passaggio in avanti del modello, mentre gli stati latenti di questi token possono essere ulteriormente raffinati in parallelo attraverso la ricorrenza. Teoricamente, la generazione con il nostro campionatore è strettamente più espressiva rispetto alla generazione autoregressiva di base utilizzando lo stesso budget di tempo su hardware moderno. Inoltre, questo campionatore, basato su principi tratti dalla letteratura sulla diffusione, può essere applicato direttamente a transformer esistenti da 3,5 miliardi di parametri con profondità ricorrente senza alcuna regolazione, portando a un incremento di velocità fino a 5 volte. Di conseguenza, i nostri risultati non solo forniscono un meccanismo efficiente per parallelizzare il calcolo extra nei modelli a profondità ricorrente durante l'inferenza, ma suggeriscono anche che tali modelli possono essere naturalmente considerati come forti modelli linguistici di diffusione continui, sebbene causali.
English
Language models with recurrent depth, also referred to as universal or looped when considering transformers, are defined by the capacity to increase their computation through the repetition of layers. Recent efforts in pretraining have demonstrated that these architectures can scale to modern language modeling tasks while exhibiting advantages in reasoning tasks. In this work, we examine the relationship between recurrent-depth models and diffusion language models. Building on their similarities, we develop a new diffusion forcing sampler for these models to accelerate generation. The sampler advances by decoding new tokens at every forward pass of the model, while the latent states of these tokens can be further refined in parallel through recurrence. Theoretically, generation with our sampler is strictly more expressive than the baseline autoregressive generation using the same time budget on modern hardware. Moreover, this sampler, based on principles from diffusion literature, can be directly applied to existing 3.5B recurrent-depth transformers without any tuning, leading to up to a 5x speedup. Consequently, our findings not only provide an efficient mechanism for parallelizing the extra computation in recurrent-depth models at inference, but also suggest that such models can be naturally viewed as strong continuous, though causal, diffusion language models.
PDF62October 17, 2025