MC-SJD: Maximales Kopplungs-Spekulatives Jacobi-Decodierung zur Beschleunigung der autoregressiven visuellen Generierung
MC-SJD : Maximal Coupling Speculative Jacobi Decoding for Autoregressive Visual Generation Acceleration
October 28, 2025
papers.authors: Junhyuk So, Hyunho Kook, Chaeyeon Jang, Eunhyeok Park
cs.AI
papers.abstract
Während autoregressive (AR) Modellierung kürzlich als neues Paradigma in der visuellen Generierung aufgetaucht ist, wird ihre praktische Anwendung stark durch die langsame Inferenzgeschwindigkeit der pro-Token-Generierung eingeschränkt, die oft Tausende von Schritten benötigt, um eine einzelne Stichprobe zu erzeugen. Um diese Herausforderung zu bewältigen, schlagen wir MC-SJD vor, ein trainingsfreies, verlustfreies paralleles Decodierungs-Framework, das entwickelt wurde, um die AR-Visualgenerierung zu beschleunigen, indem es das kürzlich eingeführte Spekulative Jacobi Decoding (SJD) erweitert. Obwohl SJD ein starkes Potenzial zur Beschleunigung der AR-Generierung zeigt, demonstrieren wir, dass Token-Instabilität über Iterationen hinweg die Akzeptanzrate erheblich reduziert, eine Einschränkung, die hauptsächlich aus dem unabhängigen Sampling-Prozess während der Entwurf-Token-Generierung resultiert. Um dies zu überwinden, führen wir MC-SJD ein, einen informationstheoretischen Ansatz basierend auf Kopplung, der das standardmäßige SJD erheblich beschleunigt, indem er die Wahrscheinlichkeit maximiert, identische Entwurf-Token über aufeinanderfolgende Iterationen hinweg zu sampeln, und dabei gleichzeitig seine verlustfreie Eigenschaft bewahrt. Bemerkenswerterweise erfordert diese Methode nur eine einzeilige Änderung des bestehenden Algorithmus, erzielt jedoch erhebliche Leistungssteigerungen und ermöglicht eine Beschleunigung der Bildgenerierung um bis zu ~4,2x und der Videogenerierung um ~13,3x im Vergleich zur standardmäßigen AR-Decodierung, ohne jegliche Verschlechterung der Ausgabequalität.
English
While autoregressive (AR) modeling has recently emerged as a new paradigm in
visual generation, its practical adoption is severely constrained by the slow
inference speed of per-token generation, which often requires thousands of
steps to produce a single sample. To address this challenge, we propose MC-SJD,
a training-free, lossless parallel decoding framework designed to accelerate AR
visual generation by extending the recently introduced Speculative Jacobi
Decoding (SJD). Although SJD shows strong potential for accelerating AR
generation, we demonstrate that token instability across iterations
significantly reduces the acceptance rate, a limitation that primarily arises
from the independent sampling process used during draft token generation. To
overcome this, we introduce MC-SJD, an information-theoretic approach based on
coupling, which substantially accelerates standard SJD by maximizing the
probability of sampling identical draft tokens across consecutive iterations,
all while preserving its lossless property. Remarkably, this method requires
only a single-line modification to the existing algorithm, yet achieves
substantial performance gains, delivering up to a ~4.2x acceleration in image
generation and ~13.3x acceleration in video generation compared to standard AR
decoding, without any degradation in output quality.