MC-SJD: 자기회귀 시각 생성 가속화를 위한 최대 결합 추론적 야코비 디코딩
MC-SJD : Maximal Coupling Speculative Jacobi Decoding for Autoregressive Visual Generation Acceleration
October 28, 2025
저자: Junhyuk So, Hyunho Kook, Chaeyeon Jang, Eunhyeok Park
cs.AI
초록
자동회귀(AR) 모델링이 최근 시각 생성 분야의 새로운 패러다임으로 부상했지만, 단일 샘플 생성에 수천 단계가 필요한 토큰별 생성의 느린 추론 속도로 인해 실제 적용은 심각한 제약을 받고 있습니다. 이러한 문제를 해결하기 위해 우리는 최근 도입된 Speculative Jacobi Decoding(SJD)을 확장하여 AR 시각 생성을 가속화하는 학습 불필요, 무손실 병렬 디코딩 프레임워크인 MC-SJD를 제안합니다. SJD는 AR 생성 가속화에 강력한 잠재력을 보여주지만, 우리는 반복 간 토큰 불안정성이 수용률을 크게 감소시킴을 입증합니다. 이는 주로 드래프트 토큰 생성 과정에서 사용되는 독립 샘플링 과정에서 비롯된 한계입니다. 이를 극복하기 위해 우리는 커플링(coupling)에 기반한 정보이론적 접근법인 MC-SJD를 도입합니다. 이 방법은 무손실 특성을 보존하면서 연속적인 반복 간 동일한 드래프트 토큰을 샘플링할 확률을 최대화하여 기존 SJD를 상당히 가속화합니다. 주목할 점은, 이 방법이 기존 알고리즘에 단 한 줄의 수정만을 요구함에도 불구하고 출력 품질의 저하 없이 표준 AR 디코딩 대비 이미지 생성에서 최대 약 4.2배, 비디오 생성에서 약 13.3배의 가속화를 달성하여 상당한 성능 향상을 보인다는 것입니다.
English
While autoregressive (AR) modeling has recently emerged as a new paradigm in
visual generation, its practical adoption is severely constrained by the slow
inference speed of per-token generation, which often requires thousands of
steps to produce a single sample. To address this challenge, we propose MC-SJD,
a training-free, lossless parallel decoding framework designed to accelerate AR
visual generation by extending the recently introduced Speculative Jacobi
Decoding (SJD). Although SJD shows strong potential for accelerating AR
generation, we demonstrate that token instability across iterations
significantly reduces the acceptance rate, a limitation that primarily arises
from the independent sampling process used during draft token generation. To
overcome this, we introduce MC-SJD, an information-theoretic approach based on
coupling, which substantially accelerates standard SJD by maximizing the
probability of sampling identical draft tokens across consecutive iterations,
all while preserving its lossless property. Remarkably, this method requires
only a single-line modification to the existing algorithm, yet achieves
substantial performance gains, delivering up to a ~4.2x acceleration in image
generation and ~13.3x acceleration in video generation compared to standard AR
decoding, without any degradation in output quality.