ChatPaper.aiChatPaper

MC-SJD: Maximales Kopplungs-Spekulatives Jacobi-Decodierung zur Beschleunigung der autoregressiven visuellen Generierung

MC-SJD : Maximal Coupling Speculative Jacobi Decoding for Autoregressive Visual Generation Acceleration

October 28, 2025
papers.authors: Junhyuk So, Hyunho Kook, Chaeyeon Jang, Eunhyeok Park
cs.AI

papers.abstract

Während autoregressive (AR) Modellierung kürzlich als neues Paradigma in der visuellen Generierung aufgetaucht ist, wird ihre praktische Anwendung stark durch die langsame Inferenzgeschwindigkeit der pro-Token-Generierung eingeschränkt, die oft Tausende von Schritten benötigt, um eine einzelne Stichprobe zu erzeugen. Um diese Herausforderung zu bewältigen, schlagen wir MC-SJD vor, ein trainingsfreies, verlustfreies paralleles Decodierungs-Framework, das entwickelt wurde, um die AR-Visualgenerierung zu beschleunigen, indem es das kürzlich eingeführte Spekulative Jacobi Decoding (SJD) erweitert. Obwohl SJD ein starkes Potenzial zur Beschleunigung der AR-Generierung zeigt, demonstrieren wir, dass Token-Instabilität über Iterationen hinweg die Akzeptanzrate erheblich reduziert, eine Einschränkung, die hauptsächlich aus dem unabhängigen Sampling-Prozess während der Entwurf-Token-Generierung resultiert. Um dies zu überwinden, führen wir MC-SJD ein, einen informationstheoretischen Ansatz basierend auf Kopplung, der das standardmäßige SJD erheblich beschleunigt, indem er die Wahrscheinlichkeit maximiert, identische Entwurf-Token über aufeinanderfolgende Iterationen hinweg zu sampeln, und dabei gleichzeitig seine verlustfreie Eigenschaft bewahrt. Bemerkenswerterweise erfordert diese Methode nur eine einzeilige Änderung des bestehenden Algorithmus, erzielt jedoch erhebliche Leistungssteigerungen und ermöglicht eine Beschleunigung der Bildgenerierung um bis zu ~4,2x und der Videogenerierung um ~13,3x im Vergleich zur standardmäßigen AR-Decodierung, ohne jegliche Verschlechterung der Ausgabequalität.
English
While autoregressive (AR) modeling has recently emerged as a new paradigm in visual generation, its practical adoption is severely constrained by the slow inference speed of per-token generation, which often requires thousands of steps to produce a single sample. To address this challenge, we propose MC-SJD, a training-free, lossless parallel decoding framework designed to accelerate AR visual generation by extending the recently introduced Speculative Jacobi Decoding (SJD). Although SJD shows strong potential for accelerating AR generation, we demonstrate that token instability across iterations significantly reduces the acceptance rate, a limitation that primarily arises from the independent sampling process used during draft token generation. To overcome this, we introduce MC-SJD, an information-theoretic approach based on coupling, which substantially accelerates standard SJD by maximizing the probability of sampling identical draft tokens across consecutive iterations, all while preserving its lossless property. Remarkably, this method requires only a single-line modification to the existing algorithm, yet achieves substantial performance gains, delivering up to a ~4.2x acceleration in image generation and ~13.3x acceleration in video generation compared to standard AR decoding, without any degradation in output quality.
PDF11December 2, 2025