MC-SJD: Максимально связанное спекулятивное декодирование Якоби для ускорения авторегрессионной визуальной генерации
MC-SJD : Maximal Coupling Speculative Jacobi Decoding for Autoregressive Visual Generation Acceleration
October 28, 2025
Авторы: Junhyuk So, Hyunho Kook, Chaeyeon Jang, Eunhyeok Park
cs.AI
Аннотация
Хотя авторегрессионное (AR) моделирование недавно стало новой парадигмой в визуальной генерации, его практическое внедрение серьезно ограничивается низкой скоростью вывода из-за пошагового генеративного процесса, который часто требует тысяч шагов для создания одного семпла. Для решения этой проблемы мы предлагаем MC-SJD — не требующую дообучения и сохраняющую точность систему параллельного декодирования, предназначенную для ускорения AR-генерации путем расширения недавно представленного метода спекулятивного якобиева декодирования (SJD). Хотя SJD демонстрирует значительный потенциал для ускорения AR-генерации, мы показываем, что нестабильность токенов между итерациями существенно снижает коэффициент принятия — ограничение, которое в основном возникает из-за процесса независимой выборки, используемого при генерации черновых токенов. Чтобы преодолеть это, мы представляем MC-SJD — информационно-теоретический подход, основанный на сопряжении, который значительно ускоряет стандартный SJD за счет максимизации вероятности выборки идентичных черновых токенов в последовательных итерациях, сохраняя при этом свойство точности. Примечательно, что этот метод требует лишь однострочного изменения существующего алгоритма, но обеспечивает существенный прирост производительности, достигая ускорения генерации изображений до ~4.2x и ускорения генерации видео до ~13.3x по сравнению со стандартным AR-декодированием без какого-либо ухудшения качества выходных данных.
English
While autoregressive (AR) modeling has recently emerged as a new paradigm in
visual generation, its practical adoption is severely constrained by the slow
inference speed of per-token generation, which often requires thousands of
steps to produce a single sample. To address this challenge, we propose MC-SJD,
a training-free, lossless parallel decoding framework designed to accelerate AR
visual generation by extending the recently introduced Speculative Jacobi
Decoding (SJD). Although SJD shows strong potential for accelerating AR
generation, we demonstrate that token instability across iterations
significantly reduces the acceptance rate, a limitation that primarily arises
from the independent sampling process used during draft token generation. To
overcome this, we introduce MC-SJD, an information-theoretic approach based on
coupling, which substantially accelerates standard SJD by maximizing the
probability of sampling identical draft tokens across consecutive iterations,
all while preserving its lossless property. Remarkably, this method requires
only a single-line modification to the existing algorithm, yet achieves
substantial performance gains, delivering up to a ~4.2x acceleration in image
generation and ~13.3x acceleration in video generation compared to standard AR
decoding, without any degradation in output quality.