ChatPaper.aiChatPaper

Amostradores Paralelos Eficientes para Modelos de Profundidade Recorrente e Sua Conexão com Modelos de Difusão de Linguagem

Efficient Parallel Samplers for Recurrent-Depth Models and Their Connection to Diffusion Language Models

October 16, 2025
Autores: Jonas Geiping, Xinyu Yang, Guinan Su
cs.AI

Resumo

Modelos de linguagem com profundidade recorrente, também chamados de universais ou em loop quando consideramos transformers, são definidos pela capacidade de aumentar sua computação por meio da repetição de camadas. Esforços recentes em pré-treinamento demonstraram que essas arquiteturas podem ser escaladas para tarefas modernas de modelagem de linguagem, ao mesmo tempo que exibem vantagens em tarefas de raciocínio. Neste trabalho, examinamos a relação entre modelos de profundidade recorrente e modelos de linguagem de difusão. Com base em suas semelhanças, desenvolvemos um novo amostrador de forçamento de difusão para esses modelos, a fim de acelerar a geração. O amostrador avança decodificando novos tokens a cada passagem direta do modelo, enquanto os estados latentes desses tokens podem ser refinados em paralelo por meio de recorrência. Teoricamente, a geração com nosso amostrador é estritamente mais expressiva do que a geração autoregressiva de linha de base usando o mesmo orçamento de tempo em hardware moderno. Além disso, esse amostrador, baseado em princípios da literatura de difusão, pode ser aplicado diretamente a transformers de profundidade recorrente de 3,5B existentes, sem qualquer ajuste, resultando em uma aceleração de até 5x. Consequentemente, nossas descobertas não apenas fornecem um mecanismo eficiente para paralelizar a computação extra em modelos de profundidade recorrente durante a inferência, mas também sugerem que tais modelos podem ser naturalmente vistos como fortes modelos de linguagem de difusão contínua, embora causais.
English
Language models with recurrent depth, also referred to as universal or looped when considering transformers, are defined by the capacity to increase their computation through the repetition of layers. Recent efforts in pretraining have demonstrated that these architectures can scale to modern language modeling tasks while exhibiting advantages in reasoning tasks. In this work, we examine the relationship between recurrent-depth models and diffusion language models. Building on their similarities, we develop a new diffusion forcing sampler for these models to accelerate generation. The sampler advances by decoding new tokens at every forward pass of the model, while the latent states of these tokens can be further refined in parallel through recurrence. Theoretically, generation with our sampler is strictly more expressive than the baseline autoregressive generation using the same time budget on modern hardware. Moreover, this sampler, based on principles from diffusion literature, can be directly applied to existing 3.5B recurrent-depth transformers without any tuning, leading to up to a 5x speedup. Consequently, our findings not only provide an efficient mechanism for parallelizing the extra computation in recurrent-depth models at inference, but also suggest that such models can be naturally viewed as strong continuous, though causal, diffusion language models.
PDF62October 17, 2025