MC-SJD: Maximale Koppeling Speculatieve Jacobi-decodering voor Versnelling van Autoregressieve Visuele Generatie
MC-SJD : Maximal Coupling Speculative Jacobi Decoding for Autoregressive Visual Generation Acceleration
October 28, 2025
Auteurs: Junhyuk So, Hyunho Kook, Chaeyeon Jang, Eunhyeok Park
cs.AI
Samenvatting
Hoewel autoregressieve (AR) modellering recentelijk naar voren is gekomen als een nieuw paradigma in visuele generatie, wordt de praktische toepassing ervan ernstig beperkt door de trage inferentiesnelheid van per-token generatie, die vaak duizenden stappen vereist om een enkel sample te produceren. Om deze uitdaging aan te pakken, stellen wij MC-SJD voor, een trainingsvrij, verliesvrij parallel decoderingkader ontworpen om AR-visuele generatie te versnellen door een uitbreiding van de recent geïntroduceerde Speculative Jacobi Decoding (SJD). Hoewel SJD een sterk potentieel toont voor het versnellen van AR-generatie, tonen wij aan dat tokeninstabiliteit tussen iteraties de acceptatiegraad aanzienlijk verlaagt, een beperking die primair voortkomt uit het onafhankelijke samplingproces dat wordt gebruikt tijdens de generatie van draft-tokens. Om dit te overwinnen, introduceren wij MC-SJD, een informatie-theoretische benadering gebaseerd op koppeling (coupling), die standaard SJD aanzienlijk versnelt door de waarschijnlijkheid te maximaliseren om identieke draft-tokens te sampleen over opeenvolgende iteraties, terwijl tegelijkertijd de verliesvrije eigenschap behouden blijft. Opmerkelijk is dat deze methode slechts een aanpassing van één regel vereist in het bestaande algoritme, maar toch aanzienlijke prestatieverbeteringen bereikt, wat resulteert in een versnelling tot ~4.2x voor beeldgeneratie en ~13.3x voor videogeneratie in vergelijking met standaard AR-decodering, zonder enige degradatie van de uitvoerkwaliteit.
English
While autoregressive (AR) modeling has recently emerged as a new paradigm in
visual generation, its practical adoption is severely constrained by the slow
inference speed of per-token generation, which often requires thousands of
steps to produce a single sample. To address this challenge, we propose MC-SJD,
a training-free, lossless parallel decoding framework designed to accelerate AR
visual generation by extending the recently introduced Speculative Jacobi
Decoding (SJD). Although SJD shows strong potential for accelerating AR
generation, we demonstrate that token instability across iterations
significantly reduces the acceptance rate, a limitation that primarily arises
from the independent sampling process used during draft token generation. To
overcome this, we introduce MC-SJD, an information-theoretic approach based on
coupling, which substantially accelerates standard SJD by maximizing the
probability of sampling identical draft tokens across consecutive iterations,
all while preserving its lossless property. Remarkably, this method requires
only a single-line modification to the existing algorithm, yet achieves
substantial performance gains, delivering up to a ~4.2x acceleration in image
generation and ~13.3x acceleration in video generation compared to standard AR
decoding, without any degradation in output quality.