Decodificación Especulativa Local Multi-Escala para la Generación de Imágenes
Multi-Scale Local Speculative Decoding for Image Generation
January 8, 2026
Autores: Elia Peruzzo, Guillaume Sautière, Amirhossein Habibian
cs.AI
Resumen
Los modelos autorregresivos (AR) han logrado un éxito notable en la síntesis de imágenes, aunque su naturaleza secuencial impone restricciones significativas de latencia. La Decodificación Especulativa ofrece una vía prometedora para la aceleración, pero los enfoques existentes están limitados por la ambigüedad a nivel de token y la falta de conciencia espacial. En este trabajo, presentamos la Decodificación Especulativa Local Multi-Escala (MuLo-SD), un marco novedoso que combina la generación de borradores multi-resolución con una verificación espacialmente informada para acelerar la generación de imágenes AR. Nuestro método aprovecha un generador de borradores de baja resolución emparejado con muestreadores ascendentes aprendidos para proponer tokens de imagen candidatos, que luego son verificados en paralelo por un modelo objetivo de alta resolución. De manera crucial, incorporamos un mecanismo local de rechazo y remuestreo, que permite la corrección eficiente de errores en los borradores al centrarse en vecindarios espaciales, en lugar de un remuestreo secuencial tras el primer rechazo. Demostramos que MuLo-SD logra aceleraciones sustanciales —hasta 1.7 veces— superando a líneas base sólidas de decodificación especulativa como EAGLE-2 y LANTERN en términos de aceleración, manteniendo una alineación semántica y calidad perceptual comparables. Estos resultados se validan utilizando GenEval, DPG-Bench y FID/HPSv2 en la división de validación de 5k imágenes de MS-COCO. Ablaciones extensivas destacan el impacto del diseño del muestreo ascendente, la agrupación de probabilidades y el rechazo y remuestreo local con expansión de vecindario. Nuestro enfoque establece un nuevo estado del arte en la decodificación especulativa para síntesis de imágenes, cerrando la brecha entre eficiencia y fidelidad.
English
Autoregressive (AR) models have achieved remarkable success in image synthesis, yet their sequential nature imposes significant latency constraints. Speculative Decoding offers a promising avenue for acceleration, but existing approaches are limited by token-level ambiguity and lack of spatial awareness. In this work, we introduce Multi-Scale Local Speculative Decoding (MuLo-SD), a novel framework that combines multi-resolution drafting with spatially informed verification to accelerate AR image generation. Our method leverages a low-resolution drafter paired with learned up-samplers to propose candidate image tokens, which are then verified in parallel by a high-resolution target model. Crucially, we incorporate a local rejection and resampling mechanism, enabling efficient correction of draft errors by focusing on spatial neighborhoods rather than raster-scan resampling after the first rejection. We demonstrate that MuLo-SD achieves substantial speedups - up to 1.7times - outperforming strong speculative decoding baselines such as EAGLE-2 and LANTERN in terms of acceleration, while maintaining comparable semantic alignment and perceptual quality. These results are validated using GenEval, DPG-Bench, and FID/HPSv2 on the MS-COCO 5k validation split. Extensive ablations highlight the impact of up-sampling design, probability pooling, and local rejection and resampling with neighborhood expansion. Our approach sets a new state-of-the-art in speculative decoding for image synthesis, bridging the gap between efficiency and fidelity.