Effiziente parallele Sampler für rekurrente Tiefenmodelle und ihre Verbindung zu Diffusionssprachmodellen
Efficient Parallel Samplers for Recurrent-Depth Models and Their Connection to Diffusion Language Models
October 16, 2025
papers.authors: Jonas Geiping, Xinyu Yang, Guinan Su
cs.AI
papers.abstract
Sprachmodelle mit rekurrenter Tiefe, auch als universell oder geschlossen bezeichnet, wenn Transformers betrachtet werden, sind durch die Fähigkeit definiert, ihre Berechnung durch die Wiederholung von Schichten zu erhöhen. Jüngste Fortschritte im Pre-Training haben gezeigt, dass diese Architekturen für moderne Sprachmodellierungsaufgaben skaliert werden können und dabei Vorteile bei Aufgaben zur logischen Schlussfolgerung aufweisen. In dieser Arbeit untersuchen wir die Beziehung zwischen Modellen mit rekurrenter Tiefe und Diffusions-Sprachmodellen. Aufbauend auf ihren Gemeinsamkeiten entwickeln wir einen neuen Diffusions-Forcing-Sampler für diese Modelle, um die Generierung zu beschleunigen. Der Sampler schreitet fort, indem er bei jedem Vorwärtsdurchlauf des Modells neue Tokens dekodiert, während die latenten Zustände dieser Tokens parallel durch Rekurrenz weiter verfeinert werden können. Theoretisch ist die Generierung mit unserem Sampler streng ausdrucksstärker als die Baseline-autoregressive Generierung unter Verwendung des gleichen Zeitbudgets auf moderner Hardware. Darüber hinaus kann dieser Sampler, der auf Prinzipien aus der Diffusionsliteratur basiert, direkt auf bestehende 3,5B rekurrente Tiefen-Transformers angewendet werden, ohne dass eine Anpassung erforderlich ist, was zu einer bis zu 5-fachen Beschleunigung führt. Folglich bieten unsere Ergebnisse nicht nur einen effizienten Mechanismus zur Parallelisierung der zusätzlichen Berechnung in Modellen mit rekurrenter Tiefe während der Inferenz, sondern legen auch nahe, dass solche Modelle natürlich als starke kontinuierliche, wenn auch kausale, Diffusions-Sprachmodelle betrachtet werden können.
English
Language models with recurrent depth, also referred to as universal or looped
when considering transformers, are defined by the capacity to increase their
computation through the repetition of layers. Recent efforts in pretraining
have demonstrated that these architectures can scale to modern language
modeling tasks while exhibiting advantages in reasoning tasks. In this work, we
examine the relationship between recurrent-depth models and diffusion language
models. Building on their similarities, we develop a new diffusion forcing
sampler for these models to accelerate generation. The sampler advances by
decoding new tokens at every forward pass of the model, while the latent states
of these tokens can be further refined in parallel through recurrence.
Theoretically, generation with our sampler is strictly more expressive than the
baseline autoregressive generation using the same time budget on modern
hardware. Moreover, this sampler, based on principles from diffusion
literature, can be directly applied to existing 3.5B recurrent-depth
transformers without any tuning, leading to up to a 5x speedup. Consequently,
our findings not only provide an efficient mechanism for parallelizing the
extra computation in recurrent-depth models at inference, but also suggest that
such models can be naturally viewed as strong continuous, though causal,
diffusion language models.