ChatPaper.aiChatPaper

MC-SJD:自己回帰的視覚生成の高速化のための最大結合投機的ヤコビデコード

MC-SJD : Maximal Coupling Speculative Jacobi Decoding for Autoregressive Visual Generation Acceleration

October 28, 2025
著者: Junhyuk So, Hyunho Kook, Chaeyeon Jang, Eunhyeok Park
cs.AI

要旨

自己回帰(AR)モデリングは視覚的生成における新たなパラダイムとして最近登場したが、その実用的な採用は、1サンプルを生成するのに数千ステップを必要とすることが多い、トークン単位の生成に伴う遅い推論速度によって深刻に制約されている。この課題に対処するため、我々は最近導入されたSpeculative Jacobi Decoding(SJD)を拡張し、AR視覚生成を加速するように設計された、学習不要でロスレスな並列デコードフレームワークであるMC-SJDを提案する。SJDはAR生成の加速に強力な可能性を示すが、我々は、反復間でのトークンの不安定性が受理率を大幅に低下させることを実証する。この制限は主に、ドラフトトークン生成時に用いられる独立したサンプリングプロセスに起因する。これを克服するために、我々はカップリングに基づく情報理論的アプローチであるMC-SJDを導入する。これは、連続する反復間で同一のドラフトトークンをサンプリングする確率を最大化することで、ロスレスの特性を保ちつつ標準SJDを大幅に加速する。特筆すべきは、この方法が既存のアルゴリズムに対し単一行の修正のみを必要とするにもかかわらず、出力品質の劣化なしに、画像生成では最大約4.2倍、動画生成では約13.3倍の加速を実現し、大幅な性能向上をもたらす点である。
English
While autoregressive (AR) modeling has recently emerged as a new paradigm in visual generation, its practical adoption is severely constrained by the slow inference speed of per-token generation, which often requires thousands of steps to produce a single sample. To address this challenge, we propose MC-SJD, a training-free, lossless parallel decoding framework designed to accelerate AR visual generation by extending the recently introduced Speculative Jacobi Decoding (SJD). Although SJD shows strong potential for accelerating AR generation, we demonstrate that token instability across iterations significantly reduces the acceptance rate, a limitation that primarily arises from the independent sampling process used during draft token generation. To overcome this, we introduce MC-SJD, an information-theoretic approach based on coupling, which substantially accelerates standard SJD by maximizing the probability of sampling identical draft tokens across consecutive iterations, all while preserving its lossless property. Remarkably, this method requires only a single-line modification to the existing algorithm, yet achieves substantial performance gains, delivering up to a ~4.2x acceleration in image generation and ~13.3x acceleration in video generation compared to standard AR decoding, without any degradation in output quality.
PDF11December 2, 2025