ChatPaper.aiChatPaper

画像生成のためのマルチスケール局所推論デコーディング

Multi-Scale Local Speculative Decoding for Image Generation

January 8, 2026
著者: Elia Peruzzo, Guillaume Sautière, Amirhossein Habibian
cs.AI

要旨

自己回帰(AR)モデルは画像合成において顕著な成功を収めているが、その逐次的な性質は大きな遅延制約を課す。投機的デコーディングは高速化の有望な手法であるが、既存のアプローチはトークンレベルの曖昧性と空間認識の欠如によって制限されている。本研究では、マルチスケール局所投機的デコーディング(MuLo-SD)を提案する。これは、AR画像生成を高速化するために、マルチ解像度の下書き生成と空間情報を考慮した検証を組み合わせた新しいフレームワークである。本手法は、低解像度の下書きモデルと学習済みアップサンプラーを組み合わせて候補画像トークンを提案し、それらを高解像度のターゲットモデルによって並列に検証する。決定的に重要なのは、最初の棄却後のラスタスキャン再サンプリングではなく、空間的近傍に焦点を当てることで、下書きの誤りを効率的に修正する局所的棄却・再サンプリング機構を組み込んでいる点である。MuLo-SDは最大1.7倍の大幅な高速化を実現し、EAGLE-2やLANTERNといった強力な投機的デコーディングのベースラインを加速性能で上回りながら、同等のセマンティックアライメントと知覚品質を維持することを示す。これらの結果は、MS-COCO 5k検証セットを用いたGenEval、DPG-Bench、FID/HPSv2によって検証されている。広範なアブレーション研究により、アップサンプリング設計、確率プーリング、および近傍拡張を伴う局所的棄却・再サンプリングの影響が明らかになった。本アプローチは、画像合成における投機的デコーディングの新たなstate-of-the-artを確立し、効率性と忠実度の間のギャップを埋めるものである。
English
Autoregressive (AR) models have achieved remarkable success in image synthesis, yet their sequential nature imposes significant latency constraints. Speculative Decoding offers a promising avenue for acceleration, but existing approaches are limited by token-level ambiguity and lack of spatial awareness. In this work, we introduce Multi-Scale Local Speculative Decoding (MuLo-SD), a novel framework that combines multi-resolution drafting with spatially informed verification to accelerate AR image generation. Our method leverages a low-resolution drafter paired with learned up-samplers to propose candidate image tokens, which are then verified in parallel by a high-resolution target model. Crucially, we incorporate a local rejection and resampling mechanism, enabling efficient correction of draft errors by focusing on spatial neighborhoods rather than raster-scan resampling after the first rejection. We demonstrate that MuLo-SD achieves substantial speedups - up to 1.7times - outperforming strong speculative decoding baselines such as EAGLE-2 and LANTERN in terms of acceleration, while maintaining comparable semantic alignment and perceptual quality. These results are validated using GenEval, DPG-Bench, and FID/HPSv2 on the MS-COCO 5k validation split. Extensive ablations highlight the impact of up-sampling design, probability pooling, and local rejection and resampling with neighborhood expansion. Our approach sets a new state-of-the-art in speculative decoding for image synthesis, bridging the gap between efficiency and fidelity.
PDF12January 10, 2026