Decodifica Speculativa Locale Multi-Scala per la Generazione di Immagini

Abstract

I modelli autoregressivi (AR) hanno ottenuto un notevole successo nella sintesi di immagini, ma la loro natura sequenziale impone significativi vincoli di latenza. Lo Speculative Decoding offre una strada promettente per l'accelerazione, ma gli approcci esistenti sono limitati dall'ambiguità a livello di token e dalla mancanza di consapevolezza spaziale. In questo lavoro, introduciamo il *Multi-Scale Local Speculative Decoding* (MuLo-SD), un nuovo framework che combina la generazione di bozze multi-risoluzione con una verifica spazialmente informata per accelerare la generazione di immagini AR. Il nostro metodo utilizza un generatore di bozze a bassa risoluzione abbinato a *upsampler* appresi per proporre token di immagine candidati, che vengono poi verificati in parallelo da un modello target ad alta risoluzione. In modo cruciale, incorporiamo un meccanismo locale di rifiuto e ricampionamento, che consente una correzione efficiente degli errori delle bozze concentrandosi su intorni spaziali, piuttosto che su un ricampionamento a scansione raster dopo il primo rifiuto. Dimostriamo che MuLo-SD raggiunge accelerazioni sostanziali - fino a 1,7 volte - superando solide baseline di speculative decoding come EAGLE-2 e LANTERN in termini di accelerazione, mantenendo al contempo una allineamento semantico e una qualità percettiva comparabili. Questi risultati sono convalidati utilizzando GenEval, DPG-Bench e FID/HPSv2 sulla suddivisione di validazione MS-COCO da 5k. Estese ablazioni evidenziano l'impatto della progettazione degli *upsampler*, del *probability pooling* e del rifiuto e ricampionamento locale con espansione dell'intorno. Il nostro approccio stabilisce un nuovo stato dell'arte nello speculative decoding per la sintesi di immagini, colmando il divario tra efficienza e fedeltà.

English

Autoregressive (AR) models have achieved remarkable success in image synthesis, yet their sequential nature imposes significant latency constraints. Speculative Decoding offers a promising avenue for acceleration, but existing approaches are limited by token-level ambiguity and lack of spatial awareness. In this work, we introduce Multi-Scale Local Speculative Decoding (MuLo-SD), a novel framework that combines multi-resolution drafting with spatially informed verification to accelerate AR image generation. Our method leverages a low-resolution drafter paired with learned up-samplers to propose candidate image tokens, which are then verified in parallel by a high-resolution target model. Crucially, we incorporate a local rejection and resampling mechanism, enabling efficient correction of draft errors by focusing on spatial neighborhoods rather than raster-scan resampling after the first rejection. We demonstrate that MuLo-SD achieves substantial speedups - up to 1.7times - outperforming strong speculative decoding baselines such as EAGLE-2 and LANTERN in terms of acceleration, while maintaining comparable semantic alignment and perceptual quality. These results are validated using GenEval, DPG-Bench, and FID/HPSv2 on the MS-COCO 5k validation split. Extensive ablations highlight the impact of up-sampling design, probability pooling, and local rejection and resampling with neighborhood expansion. Our approach sets a new state-of-the-art in speculative decoding for image synthesis, bridging the gap between efficiency and fidelity.

Decodifica Speculativa Locale Multi-Scala per la Generazione di Immagini

Multi-Scale Local Speculative Decoding for Image Generation

Abstract

Support