ChatPaper.aiChatPaper

Mehrskaliges lokales spekulatives Decodieren für die Bildgenerierung

Multi-Scale Local Speculative Decoding for Image Generation

January 8, 2026
papers.authors: Elia Peruzzo, Guillaume Sautière, Amirhossein Habibian
cs.AI

papers.abstract

Autoregressive (AR) Modelle haben bemerkenswerte Erfolge in der Bildsynthese erzielt, doch ihre sequenzielle Natur führt zu erheblichen Latenzeinschränkungen. Speculative Decoding bietet einen vielversprechenden Ansatz zur Beschleunigung, aber bestehende Methoden werden durch Token-basierte Mehrdeutigkeit und mangelndes räumliches Bewusstsein eingeschränkt. In dieser Arbeit stellen wir Multi-Scale Local Speculative Decoding (MuLo-SD) vor, einen neuartigen Rahmen, der Multi-Resolution-Drafting mit räumlich informierter Verifikation kombiniert, um die AR-Bildgenerierung zu beschleunigen. Unser Verfahren nutzt einen Low-Resolution-Drafter in Kombination mit gelernten Upsamplern, um Kandidaten-Bildtokens vorzuschlagen, die dann parallel von einem High-Resolution-Zielmodell verifiziert werden. Entscheidend ist, dass wir einen Mechanismus zur lokalen Zurückweisung und Neusammlung integrieren, der eine effiziente Korrektur von Draft-Fehlern ermöglicht, indem er sich auf räumliche Nachbarschaften konzentriert, anstatt nach der ersten Zurückweisung eine Raster-Scan-Neusammlung durchzuführen. Wir zeigen, dass MuLo-SD erhebliche Beschleunigungen – bis zu 1,7-fach – erreicht und dabei starke Speculative-Decoding-Baselines wie EAGLE-2 und LANTERN in Bezug auf die Beschleunigung übertrifft, während eine vergleichbare semantische Übereinstimmung und perzeptuelle Qualität erhalten bleibt. Diese Ergebnisse wurden mit GenEval, DPG-Bench und FID/HPSv2 auf dem MS-COCO-5k-Validierungssplit validiert. Umfangreiche Ablationstudien unterstreichen die Auswirkungen des Upsampling-Designs, der Probability-Pooling-Strategie sowie der lokalen Zurückweisung und Neusammlung mit Nachbarschaftserweiterung. Unser Ansatz setzt einen neuen Maßstab im State-of-the-Art für Speculative Decoding in der Bildsynthese und überbrückt die Lücke zwischen Effizienz und Wiedergabetreue.
English
Autoregressive (AR) models have achieved remarkable success in image synthesis, yet their sequential nature imposes significant latency constraints. Speculative Decoding offers a promising avenue for acceleration, but existing approaches are limited by token-level ambiguity and lack of spatial awareness. In this work, we introduce Multi-Scale Local Speculative Decoding (MuLo-SD), a novel framework that combines multi-resolution drafting with spatially informed verification to accelerate AR image generation. Our method leverages a low-resolution drafter paired with learned up-samplers to propose candidate image tokens, which are then verified in parallel by a high-resolution target model. Crucially, we incorporate a local rejection and resampling mechanism, enabling efficient correction of draft errors by focusing on spatial neighborhoods rather than raster-scan resampling after the first rejection. We demonstrate that MuLo-SD achieves substantial speedups - up to 1.7times - outperforming strong speculative decoding baselines such as EAGLE-2 and LANTERN in terms of acceleration, while maintaining comparable semantic alignment and perceptual quality. These results are validated using GenEval, DPG-Bench, and FID/HPSv2 on the MS-COCO 5k validation split. Extensive ablations highlight the impact of up-sampling design, probability pooling, and local rejection and resampling with neighborhood expansion. Our approach sets a new state-of-the-art in speculative decoding for image synthesis, bridging the gap between efficiency and fidelity.
PDF12January 10, 2026