순환 깊이 모델을 위한 효율적인 병렬 샘플러와 확산 언어 모델과의 연관성
Efficient Parallel Samplers for Recurrent-Depth Models and Their Connection to Diffusion Language Models
October 16, 2025
저자: Jonas Geiping, Xinyu Yang, Guinan Su
cs.AI
초록
순환 깊이(Recurrent Depth)를 가진 언어 모델, 특히 트랜스포머(Transformer)의 경우 루프(Looped) 또는 유니버설(Universal)로도 불리며, 이는 레이어의 반복을 통해 계산량을 증가시킬 수 있는 능력으로 정의됩니다. 최근의 사전 학습 연구에서 이러한 아키텍처가 현대 언어 모델링 작업에 확장 가능하며, 특히 추론 작업에서 장점을 보인다는 것이 입증되었습니다. 본 연구에서는 순환 깊이 모델과 확산 언어 모델(Diffusion Language Model) 간의 관계를 탐구합니다. 이들의 유사성을 바탕으로, 이러한 모델을 위한 새로운 확산 강제 샘플러(Diffusion Forcing Sampler)를 개발하여 생성 속도를 가속화합니다. 이 샘플러는 모델의 순방향 전달(Forward Pass)마다 새로운 토큰을 디코딩하면서, 이러한 토큰의 잠재 상태(Latent State)를 순환을 통해 병렬적으로 추가적으로 개선할 수 있습니다. 이론적으로, 우리의 샘플러를 사용한 생성은 동일한 시간 예산 내에서 기존의 자기회귀(Autoregressive) 생성 방식보다 엄밀히 더 표현력이 뛰어납니다. 또한, 이 샘플러는 확산 이론(Diffusion Literature)의 원칙에 기반하여 기존의 3.5B 규모 순환 깊이 트랜스포머에 별도의 튜닝 없이 바로 적용할 수 있으며, 최대 5배의 속도 향상을 이끌어냅니다. 결과적으로, 우리의 연구 결과는 순환 깊이 모델에서 추가적인 계산을 추론 시 병렬화하는 효율적인 메커니즘을 제공할 뿐만 아니라, 이러한 모델이 강력한 연속적이면서도 인과적(Causal) 확산 언어 모델로 자연스럽게 해석될 수 있음을 시사합니다.
English
Language models with recurrent depth, also referred to as universal or looped
when considering transformers, are defined by the capacity to increase their
computation through the repetition of layers. Recent efforts in pretraining
have demonstrated that these architectures can scale to modern language
modeling tasks while exhibiting advantages in reasoning tasks. In this work, we
examine the relationship between recurrent-depth models and diffusion language
models. Building on their similarities, we develop a new diffusion forcing
sampler for these models to accelerate generation. The sampler advances by
decoding new tokens at every forward pass of the model, while the latent states
of these tokens can be further refined in parallel through recurrence.
Theoretically, generation with our sampler is strictly more expressive than the
baseline autoregressive generation using the same time budget on modern
hardware. Moreover, this sampler, based on principles from diffusion
literature, can be directly applied to existing 3.5B recurrent-depth
transformers without any tuning, leading to up to a 5x speedup. Consequently,
our findings not only provide an efficient mechanism for parallelizing the
extra computation in recurrent-depth models at inference, but also suggest that
such models can be naturally viewed as strong continuous, though causal,
diffusion language models.