ChatPaper.aiChatPaper

Многомасштабное локальное спекулятивное декодирование для генерации изображений

Multi-Scale Local Speculative Decoding for Image Generation

January 8, 2026
Авторы: Elia Peruzzo, Guillaume Sautière, Amirhossein Habibian
cs.AI

Аннотация

Авторегрессионные (AR) модели достигли выдающихся успехов в синтезе изображений, однако их последовательная природа накладывает существенные ограничения на задержку. Спекулятивное декодирование предлагает перспективный путь для ускорения, но существующие подходы ограничены неоднозначностью на уровне токенов и отсутствием пространственной осведомленности. В данной работе мы представляем Multi-Scale Local Speculative Decoding (MuLo-SD) — новую архитектуру, которая сочетает многоразрешающее черновое прогнозирование с пространственно-ориентированной верификацией для ускорения AR-генерации изображений. Наш метод использует низкоразрешающий драфтер в паре с обученными апсемплерами для предложения кандидатных токенов изображения, которые затем параллельно проверяются высокоразрешающей целевой моделью. Ключевым элементом является механизм локального отклонения и повторного сэмплирования, позволяющий эффективно исправлять ошибки черновика за счет фокусировки на пространственных окрестностях, а не на повторном сэмплировании по растровому сканированию после первого отклонения. Мы демонстрируем, что MuLo-SD обеспечивает значительное ускорение — до 1.7 раза — превосходя сильные базовые методы спекулятивного декодирования, такие как EAGLE-2 и LANTERN, по показателям ускорения, при сохранении сопоставимого семантического соответствия и перцептивного качества. Эти результаты подтверждены с использованием GenEval, DPG-Bench и FID/HPSv2 на валидационной выборке MS-COCO из 5 тыс. изображений. Обширные ablation-исследования подчеркивают влияние дизайна апсемплинга, пулинга вероятностей, а также локального отклонения и повторного сэмплирования с расширением окрестности. Наш подход устанавливает новое state-of-the-art значение в спекулятивном декодировании для синтеза изображений, сокращая разрыв между эффективностью и точностью.
English
Autoregressive (AR) models have achieved remarkable success in image synthesis, yet their sequential nature imposes significant latency constraints. Speculative Decoding offers a promising avenue for acceleration, but existing approaches are limited by token-level ambiguity and lack of spatial awareness. In this work, we introduce Multi-Scale Local Speculative Decoding (MuLo-SD), a novel framework that combines multi-resolution drafting with spatially informed verification to accelerate AR image generation. Our method leverages a low-resolution drafter paired with learned up-samplers to propose candidate image tokens, which are then verified in parallel by a high-resolution target model. Crucially, we incorporate a local rejection and resampling mechanism, enabling efficient correction of draft errors by focusing on spatial neighborhoods rather than raster-scan resampling after the first rejection. We demonstrate that MuLo-SD achieves substantial speedups - up to 1.7times - outperforming strong speculative decoding baselines such as EAGLE-2 and LANTERN in terms of acceleration, while maintaining comparable semantic alignment and perceptual quality. These results are validated using GenEval, DPG-Bench, and FID/HPSv2 on the MS-COCO 5k validation split. Extensive ablations highlight the impact of up-sampling design, probability pooling, and local rejection and resampling with neighborhood expansion. Our approach sets a new state-of-the-art in speculative decoding for image synthesis, bridging the gap between efficiency and fidelity.
PDF12January 10, 2026