ChatPaper.aiChatPaper

MC-SJD: Decodifica Speculativa di Jacobi con Accoppiamento Massimale per l'Accelerazione della Generazione Visiva Autoregressiva

MC-SJD : Maximal Coupling Speculative Jacobi Decoding for Autoregressive Visual Generation Acceleration

October 28, 2025
Autori: Junhyuk So, Hyunho Kook, Chaeyeon Jang, Eunhyeok Park
cs.AI

Abstract

Sebbene la modellazione autoregressiva (AR) sia recentemente emersa come un nuovo paradigma nella generazione visiva, la sua adozione pratica è fortemente limitata dalla lentezza di inferenza della generazione per token, che spesso richiede migliaia di passi per produrre un singolo campione. Per affrontare questa sfida, proponiamo MC-SJD, un framework di decodifica parallela senza perdite e senza necessità di training, progettato per accelerare la generazione visiva AR estendendo il recente Jacobi Decoding Speculativo (SJD). Sebbene l'SJD mostri un forte potenziale per accelerare la generazione AR, dimostriamo che l'instabilità dei token tra le iterazioni riduce significativamente il tasso di accettazione, una limitazione che deriva principalmente dal processo di campionamento indipendente utilizzato durante la generazione dei token draft. Per superare questo problema, introduciamo MC-SJD, un approccio basato sulla teoria dell'informazione che utilizza l'accoppiamento (coupling), il quale accelera sostanzialmente l'SJD standard massimizzando la probabilità di campionare token draft identici attraverso iterazioni consecutive, preservandone al contempo la proprietà di essere senza perdite. Notevolmente, questo metodo richiede una modifica di una sola riga all'algoritmo esistente, eppure ottiene sostanziali miglioramenti delle prestazioni, fornendo un'accelerazione fino a ~4.2x nella generazione di immagini e ~13.3x nella generazione video rispetto alla decodifica AR standard, senza alcuna degradazione della qualità dell'output.
English
While autoregressive (AR) modeling has recently emerged as a new paradigm in visual generation, its practical adoption is severely constrained by the slow inference speed of per-token generation, which often requires thousands of steps to produce a single sample. To address this challenge, we propose MC-SJD, a training-free, lossless parallel decoding framework designed to accelerate AR visual generation by extending the recently introduced Speculative Jacobi Decoding (SJD). Although SJD shows strong potential for accelerating AR generation, we demonstrate that token instability across iterations significantly reduces the acceptance rate, a limitation that primarily arises from the independent sampling process used during draft token generation. To overcome this, we introduce MC-SJD, an information-theoretic approach based on coupling, which substantially accelerates standard SJD by maximizing the probability of sampling identical draft tokens across consecutive iterations, all while preserving its lossless property. Remarkably, this method requires only a single-line modification to the existing algorithm, yet achieves substantial performance gains, delivering up to a ~4.2x acceleration in image generation and ~13.3x acceleration in video generation compared to standard AR decoding, without any degradation in output quality.
PDF11December 2, 2025