ChatPaper.aiChatPaper

ReFusion: 병렬 자기회귀 디코딩을 적용한 확산 대형 언어 모델

ReFusion: A Diffusion Large Language Model with Parallel Autoregressive Decoding

December 15, 2025
저자: Jia-Nan Li, Jian Guan, Wei Wu, Chongxuan Li
cs.AI

초록

자기회귀 모델(ARM)은 순차적 추론 속도가 느리다는 한계를 지닙니다. 마스크 확산 모델(MDM)은 병렬적 대안을 제공하지만, 주요 단점이 존재합니다: 키-값(KV) 캐싱을 배제함으로써 발생하는 높은 계산 부담과, 다루기 힘든 토큰 조합 공간에서의 의존성 학습으로 인한 비일관적 생성이 그것입니다. 이러한 한계를 해결하기 위해 우리는 ReFusion을 소개합니다. 이는 병렬 디코딩을 토큰 수준에서 더 높은 슬롯 수준으로 격상시켜 우수한 성능과 효율을 달성하는 새로운 마스크 확산 모델입니다. 여기서 각 슬롯은 고정 길이의 연속적인 부분 시퀀스입니다. 이는 반복적인 "계획 및 채우기(plan-and-infill)" 디코딩 과정을 통해 이루어집니다: 확산 기반 계획 단계에서 먼저 약하게 의존적인 슬롯 집합을 식별하고, 자기회귀적 채우기 단계에서 이 선택된 슬롯들을 병렬로 디코딩합니다. 슬롯 기반 설계는 통합된 인과적 프레임워크 내에서 완전한 KV 캐시 재사용을 가능하게 하면서 동시에 학습 복잡도를 토큰 조합 공간에서 관리 가능한 슬롯 수준의 순열 공간으로 축소합니다. 7가지 다양한 벤치마크에 대한 폭넓은 실험 결과, ReFusion은 기존 MDM을 34%의 성능 향상과 평균 18배 이상의 속도 향상으로 압도적으로 능가할 뿐만 아니라, 강력한 ARM과의 성능 격차를 좁히면서도 평균 2.33배의 속도 우위를 유지하는 것으로 나타났습니다.
English
Autoregressive models (ARMs) are hindered by slow sequential inference. While masked diffusion models (MDMs) offer a parallel alternative, they suffer from critical drawbacks: high computational overhead from precluding Key-Value (KV) caching, and incoherent generation arising from learning dependencies over an intractable space of token combinations. To address these limitations, we introduce ReFusion, a novel masked diffusion model that achieves superior performance and efficiency by elevating parallel decoding from the token level to a higher slot level, where each slot is a fixed-length, contiguous sub-sequence. This is achieved through an iterative ``plan-and-infill'' decoding process: a diffusion-based planning step first identifies a set of weakly dependent slots, and an autoregressive infilling step then decodes these selected slots in parallel. The slot-based design simultaneously unlocks full KV cache reuse with a unified causal framework and reduces the learning complexity from the token combination space to a manageable slot-level permutation space. Extensive experiments on seven diverse benchmarks show that ReFusion not only overwhelmingly surpasses prior MDMs with 34% performance gains and an over 18times speedup on average, but also bridges the performance gap to strong ARMs while maintaining a 2.33times average speedup.
PDF814December 17, 2025