Décodage Spéculatif Local Multi-Échelle pour la Génération d'Images
Multi-Scale Local Speculative Decoding for Image Generation
January 8, 2026
papers.authors: Elia Peruzzo, Guillaume Sautière, Amirhossein Habibian
cs.AI
papers.abstract
Les modèles autorégressifs (AR) ont obtenu un succès remarquable en synthèse d'images, mais leur nature séquentielle impose des contraintes importantes de latence. Le décodage spéculatif offre une voie prometteuse pour l'accélération, mais les approches existantes sont limitées par l'ambiguïté au niveau des tokens et le manque de conscience spatiale. Dans ce travail, nous présentons le Multi-Scale Local Speculative Decoding (MuLo-SD), un nouveau cadre qui combine l'ébauche multi-résolution avec une vérification spatialement informée pour accélérer la génération d'images AR. Notre méthode exploite un ébaucheur à basse résolution couplé à des sur-échantillonneurs appris pour proposer des tokens d'image candidats, qui sont ensuite vérifiés en parallèle par un modèle cible à haute résolution. De manière cruciale, nous incorporons un mécanisme local de rejet et de rééchantillonnage, permettant une correction efficace des erreurs d'ébauche en se concentrant sur des voisinages spatiaux plutôt que sur un rééchantillonnage en balayage linéaire après le premier rejet. Nous démontrons que MuLo-SD atteint des accélérations substantielles - jusqu'à 1,7 fois - surpassant les solides bases de référence en décodage spéculatif telles que EAGLE-2 et LANTERN en termes d'accélération, tout en maintenant une alignement sémantique et une qualité perceptuelle comparables. Ces résultats sont validés à l'aide de GenEval, DPG-Bench et FID/HPSv2 sur la partition de validation MS-COCO 5k. Des ablations approfondies mettent en lumière l'impact de la conception du sur-échantillonnage, du regroupement de probabilités, et du rejet et rééchantillonnage locaux avec expansion du voisinage. Notre approche établit un nouvel état de l'art dans le décodage spéculatif pour la synthèse d'images, comblant l'écart entre l'efficacité et la fidélité.
English
Autoregressive (AR) models have achieved remarkable success in image synthesis, yet their sequential nature imposes significant latency constraints. Speculative Decoding offers a promising avenue for acceleration, but existing approaches are limited by token-level ambiguity and lack of spatial awareness. In this work, we introduce Multi-Scale Local Speculative Decoding (MuLo-SD), a novel framework that combines multi-resolution drafting with spatially informed verification to accelerate AR image generation. Our method leverages a low-resolution drafter paired with learned up-samplers to propose candidate image tokens, which are then verified in parallel by a high-resolution target model. Crucially, we incorporate a local rejection and resampling mechanism, enabling efficient correction of draft errors by focusing on spatial neighborhoods rather than raster-scan resampling after the first rejection. We demonstrate that MuLo-SD achieves substantial speedups - up to 1.7times - outperforming strong speculative decoding baselines such as EAGLE-2 and LANTERN in terms of acceleration, while maintaining comparable semantic alignment and perceptual quality. These results are validated using GenEval, DPG-Bench, and FID/HPSv2 on the MS-COCO 5k validation split. Extensive ablations highlight the impact of up-sampling design, probability pooling, and local rejection and resampling with neighborhood expansion. Our approach sets a new state-of-the-art in speculative decoding for image synthesis, bridging the gap between efficiency and fidelity.