ChatPaper.aiChatPaper

MC-SJD: Decodificación Especulativa de Jacobi con Acoplamiento Máximo para la Aceleración de la Generación Visual Autoregresiva

MC-SJD : Maximal Coupling Speculative Jacobi Decoding for Autoregressive Visual Generation Acceleration

October 28, 2025
Autores: Junhyuk So, Hyunho Kook, Chaeyeon Jang, Eunhyeok Park
cs.AI

Resumen

Si bien el modelado autorregresivo (AR) ha surgido recientemente como un nuevo paradigma en la generación visual, su adopción práctica se ve severamente limitada por la lenta velocidad de inferencia de la generación por token, que a menudo requiere miles de pasos para producir una sola muestra. Para abordar este desafío, proponemos MC-SJD, un marco de decodificación paralela sin pérdidas y que no requiere entrenamiento, diseñado para acelerar la generación visual AR extendiendo el recientemente introducido Decodificación de Jacobi Especulativa (SJD). Aunque SJD muestra un fuerte potencial para acelerar la generación AR, demostramos que la inestabilidad de los tokens entre iteraciones reduce significativamente la tasa de aceptación, una limitación que surge principalmente del proceso de muestreo independiente utilizado durante la generación de tokens de borrador. Para superar esto, introducimos MC-SJD, un enfoque teórico-informacional basado en acoplamiento, que acelera sustancialmente el SJD estándar al maximizar la probabilidad de muestrear tokens de borrador idénticos en iteraciones consecutivas, todo ello preservando su propiedad de ser sin pérdidas. Notablemente, este método requiere solo una modificación de una línea al algoritmo existente, y sin embargo logra ganancias sustanciales de rendimiento, proporcionando hasta una aceleración de ~4.2x en la generación de imágenes y ~13.3x en la generación de videos en comparación con la decodificación AR estándar, sin ninguna degradación en la calidad de la salida.
English
While autoregressive (AR) modeling has recently emerged as a new paradigm in visual generation, its practical adoption is severely constrained by the slow inference speed of per-token generation, which often requires thousands of steps to produce a single sample. To address this challenge, we propose MC-SJD, a training-free, lossless parallel decoding framework designed to accelerate AR visual generation by extending the recently introduced Speculative Jacobi Decoding (SJD). Although SJD shows strong potential for accelerating AR generation, we demonstrate that token instability across iterations significantly reduces the acceptance rate, a limitation that primarily arises from the independent sampling process used during draft token generation. To overcome this, we introduce MC-SJD, an information-theoretic approach based on coupling, which substantially accelerates standard SJD by maximizing the probability of sampling identical draft tokens across consecutive iterations, all while preserving its lossless property. Remarkably, this method requires only a single-line modification to the existing algorithm, yet achieves substantial performance gains, delivering up to a ~4.2x acceleration in image generation and ~13.3x acceleration in video generation compared to standard AR decoding, without any degradation in output quality.
PDF11December 2, 2025