잠재 정제 디코딩: 신념 상태 정제를 통해 확산 기반 언어 모델 향상하기
Latent Refinement Decoding: Enhancing Diffusion-Based Language Models by Refining Belief States
October 13, 2025
저자: Qinglin Zhu, Yizhen Yao, Runcong Zhao, Yanzheng Xiang, Amrutha Saseendran, Chen Jin, Philip Alexander Teare, Bin Liang, Yulan He, Lin Gui
cs.AI
초록
자기회귀(AR) 모델은 자연어 생성의 표준으로 남아 있지만, 엄격하게 순차적인 디코딩으로 인해 높은 지연 시간 문제를 여전히 겪고 있습니다. 최근 LlaDA와 Dream과 같은 확산 기반 접근법은 병렬 생성을 통해 이를 완화하지만, 두 가지 핵심 한계가 있습니다: 정보 손실(각 단계에서 확정되지 않은 토큰의 예측 분포가 폐기됨)과 조기 결정(충분한 전역 조정 없이 지역적 결정이 이루어짐)입니다. 우리는 잠재 정제 디코딩(LRD)을 소개합니다. 이는 잠재 정제(Latent Refinement)와 예측 피드백 루프(Predictive Feedback Loop)로 구성된 두 단계 프레임워크입니다. 첫 번째 단계에서는 마스크된 위치를 예측된 토큰과 마스크 임베딩의 분포적 혼합으로 유지함으로써 모델이 더 전역적으로 일관된 믿음을 형성할 수 있게 합니다. 두 번째 단계에서는 확신이 있는 토큰을 점진적으로 확정하면서 불확실한 토큰은 반복적 피드백을 위해 유지합니다. KL-발산(KL-divergence) 역학은 수렴과 조기 중단을 위한 원칙적이고 신뢰할 수 있는 기준을 제공합니다. 코딩(HumanEval +6.3, MBPP +2.6)과 추론(GSM8K +2.9, MATH500 +3.8) 분야의 실험 결과, LRD는 정확도를 향상시키면서 최대 10.6배의 속도 향상을 달성하여 병렬 시퀀스 생성을 위한 강력하고 다재다능한 대안임을 보여줍니다.
English
Autoregressive (AR) models remain the standard for natural language
generation but still suffer from high latency due to strictly sequential
decoding. Recent diffusion-inspired approaches, such as LlaDA and Dream,
mitigate this by generating in parallel, yet they suffer from two core
limitations: information loss, as predictive distributions for non-finalized
tokens are discarded at each step, and premature commitment, where local
decisions are made without sufficient global coordination. We introduce Latent
Refinement Decoding (LRD), a two-stage framework with Latent Refinement and a
Predictive Feedback Loop. The first stage maintains masked positions as
distributional mixtures of predicted tokens and the mask embedding, allowing
the model to establish more globally consistent beliefs. The second stage
progressively finalizes confident tokens while retaining uncertain ones for
iterative feedback. KL-divergence dynamics provide a principled and reliable
criterion for convergence and early stopping. Experiments across coding
(HumanEval +6.3, MBPP +2.6) and reasoning (GSM8K +2.9, MATH500 +3.8) show that
LRD improves accuracy while delivering speedups of up to 10.6x, making it a
strong and versatile alternative for parallel sequence generation.