MC-SJD: Decodificação Jacobi Especulativa com Acoplamento Máximo para Aceleração de Geração Visual Autoregressiva
MC-SJD : Maximal Coupling Speculative Jacobi Decoding for Autoregressive Visual Generation Acceleration
October 28, 2025
Autores: Junhyuk So, Hyunho Kook, Chaeyeon Jang, Eunhyeok Park
cs.AI
Resumo
Embora a modelagem autorregressiva (AR) tenha surgido recentemente como um novo paradigma na geração visual, sua adoção prática é severamente limitada pela baixa velocidade de inferência da geração por token, que frequentemente requer milhares de passos para produzir uma única amostra. Para enfrentar este desafio, propomos o MC-SJD, uma estrutura de decodificação paralela sem perdas e sem necessidade de treinamento, projetada para acelerar a geração visual AR estendendo a recentemente introduzida Decodificação de Jacobi Especulativa (SJD). Embora a SJD mostre forte potencial para acelerar a geração AR, demonstramos que a instabilidade dos tokens entre iterações reduz significativamente a taxa de aceitação, uma limitação que surge principalmente do processo de amostragem independente usado durante a geração de tokens de rascunho. Para superar isso, introduzimos o MC-SJD, uma abordagem baseada em teoria da informação fundamentada em *coupling*, que acelera substancialmente a SJD padrão maximizando a probabilidade de amostrar tokens de rascunho idênticos em iterações consecutivas, tudo isso preservando sua propriedade de ser sem perdas. Notavelmente, este método requer apenas uma modificação de uma única linha no algoritmo existente, mas alcança ganhos substanciais de desempenho, proporcionando uma aceleração de até ~4.2x na geração de imagens e ~13.3x na geração de vídeos em comparação com a decodificação AR padrão, sem qualquer degradação na qualidade da saída.
English
While autoregressive (AR) modeling has recently emerged as a new paradigm in
visual generation, its practical adoption is severely constrained by the slow
inference speed of per-token generation, which often requires thousands of
steps to produce a single sample. To address this challenge, we propose MC-SJD,
a training-free, lossless parallel decoding framework designed to accelerate AR
visual generation by extending the recently introduced Speculative Jacobi
Decoding (SJD). Although SJD shows strong potential for accelerating AR
generation, we demonstrate that token instability across iterations
significantly reduces the acceptance rate, a limitation that primarily arises
from the independent sampling process used during draft token generation. To
overcome this, we introduce MC-SJD, an information-theoretic approach based on
coupling, which substantially accelerates standard SJD by maximizing the
probability of sampling identical draft tokens across consecutive iterations,
all while preserving its lossless property. Remarkably, this method requires
only a single-line modification to the existing algorithm, yet achieves
substantial performance gains, delivering up to a ~4.2x acceleration in image
generation and ~13.3x acceleration in video generation compared to standard AR
decoding, without any degradation in output quality.