Meervoudig-schaal Lokale Speculatieve Decodering voor Beeldgeneratie

Samenvatting

Autoregressieve (AR) modellen hebben opmerkelijke successen geboekt in beeld-synthese, maar hun sequentiële aard legt aanzienlijke latentiebeperkingen op. Speculatieve Decodering biedt een veelbelovende weg naar versnelling, maar bestaande methoden worden beperkt door token-level ambiguïteit en een gebrek aan ruimtelijk bewustzijn. In dit werk introduceren we Multi-Scale Local Speculative Decoding (MuLo-SD), een nieuw raamwerk dat multi-resolutie drafting combineert met ruimtelijk geïnformeerde verificatie om AR-beeldgeneratie te versnellen. Onze methode benut een low-resolutie drafter in combinatie met geleerde up-samplers om kandidaat-beeldtokens voor te stellen, die vervolgens parallel worden geverifieerd door een high-resolutie doelmodel. Cruciaal is dat we een lokaal afwijzings- en herbemonsteringsmechanisme integreren, waardoor efficiënte correctie van draftfouten mogelijk wordt door te focussen op ruimtelijke nabijheden in plaats van opnieuw bemonsteren volgens een raster-scan na de eerste afwijzing. We tonen aan dat MuLo-SD aanzienlijke snelheidswinsten bereikt – tot 1,7x – en daarbij sterke speculatieve decodering-baselines zoals EAGLE-2 en LANTERN overtreft qua versnelling, terwijl vergelijkbare semantische uitlijning en perceptuele kwaliteit behouden blijven. Deze resultaten zijn gevalideerd met GenEval, DPG-Bench en FID/HPSv2 op de MS-COCO 5k validatieset. Uitgebreide ablatiestudies belichten de impact van up-sampling ontwerp, kans-pooling, en lokale afwijzing en herbemonstering met nabijheidsuitbreiding. Onze aanleg zet een nieuwe standaard voor speculatieve decodering in beeld-synthese en overbrugt de kloof tussen efficiëntie en getrouwheid.

English

Autoregressive (AR) models have achieved remarkable success in image synthesis, yet their sequential nature imposes significant latency constraints. Speculative Decoding offers a promising avenue for acceleration, but existing approaches are limited by token-level ambiguity and lack of spatial awareness. In this work, we introduce Multi-Scale Local Speculative Decoding (MuLo-SD), a novel framework that combines multi-resolution drafting with spatially informed verification to accelerate AR image generation. Our method leverages a low-resolution drafter paired with learned up-samplers to propose candidate image tokens, which are then verified in parallel by a high-resolution target model. Crucially, we incorporate a local rejection and resampling mechanism, enabling efficient correction of draft errors by focusing on spatial neighborhoods rather than raster-scan resampling after the first rejection. We demonstrate that MuLo-SD achieves substantial speedups - up to 1.7times - outperforming strong speculative decoding baselines such as EAGLE-2 and LANTERN in terms of acceleration, while maintaining comparable semantic alignment and perceptual quality. These results are validated using GenEval, DPG-Bench, and FID/HPSv2 on the MS-COCO 5k validation split. Extensive ablations highlight the impact of up-sampling design, probability pooling, and local rejection and resampling with neighborhood expansion. Our approach sets a new state-of-the-art in speculative decoding for image synthesis, bridging the gap between efficiency and fidelity.

Meervoudig-schaal Lokale Speculatieve Decodering voor Beeldgeneratie

Multi-Scale Local Speculative Decoding for Image Generation

Samenvatting

Support