ChatPaper.aiChatPaper

MC-SJD : Décodage Jacobi Spéculatif à Couplage Maximal pour l'Accélération de la Génération Visuelle Autoregressive

MC-SJD : Maximal Coupling Speculative Jacobi Decoding for Autoregressive Visual Generation Acceleration

October 28, 2025
papers.authors: Junhyuk So, Hyunho Kook, Chaeyeon Jang, Eunhyeok Park
cs.AI

papers.abstract

Bien que la modélisation autorégressive (AR) soit récemment apparue comme un nouveau paradigme dans la génération visuelle, son adoption pratique est sévèrement limitée par la lenteur de l'inférence due à la génération token par token, qui nécessite souvent des milliers d'étapes pour produire un seul échantillon. Pour relever ce défi, nous proposons MC-SJD, un cadre de décodage parallèle non supervisé et sans perte, conçu pour accélérer la génération visuelle AR en étendant le Décodage de Jacobi Spéculatif (SJD) récemment introduit. Bien que le SJD montre un fort potentiel d'accélération de la génération AR, nous démontrons que l'instabilité des tokens entre les itérations réduit significativement le taux d'acceptation, une limitation qui découle principalement du processus d'échantillonnage indépendant utilisé lors de la génération des tokens d'ébauche. Pour surmonter cela, nous introduisons MC-SJD, une approche informationnelle basée sur le couplage, qui accélère substantiellement le SJD standard en maximisant la probabilité d'échantillonner des tokens d'ébauche identiques sur des itérations consécutives, tout en préservant sa propriété sans perte. Fait remarquable, cette méthode ne nécessite qu'une modification d'une seule ligne de l'algorithme existant, tout en obtenant des gains de performance substantiels, offrant une accélération allant jusqu'à ~4,2x pour la génération d'images et ~13,3x pour la génération vidéo par rapport au décodage AR standard, sans aucune dégradation de la qualité de sortie.
English
While autoregressive (AR) modeling has recently emerged as a new paradigm in visual generation, its practical adoption is severely constrained by the slow inference speed of per-token generation, which often requires thousands of steps to produce a single sample. To address this challenge, we propose MC-SJD, a training-free, lossless parallel decoding framework designed to accelerate AR visual generation by extending the recently introduced Speculative Jacobi Decoding (SJD). Although SJD shows strong potential for accelerating AR generation, we demonstrate that token instability across iterations significantly reduces the acceptance rate, a limitation that primarily arises from the independent sampling process used during draft token generation. To overcome this, we introduce MC-SJD, an information-theoretic approach based on coupling, which substantially accelerates standard SJD by maximizing the probability of sampling identical draft tokens across consecutive iterations, all while preserving its lossless property. Remarkably, this method requires only a single-line modification to the existing algorithm, yet achieves substantial performance gains, delivering up to a ~4.2x acceleration in image generation and ~13.3x acceleration in video generation compared to standard AR decoding, without any degradation in output quality.
PDF11December 2, 2025