Decodificação Especulativa Local Multi-Escala para Geração de Imagens

Resumo

Os modelos autorregressivos (AR) obtiveram sucesso notável na síntese de imagens, mas a sua natureza sequencial impõe restrições significativas de latência. A Decodificação Especulativa oferece uma via promissora para aceleração, mas as abordagens existentes são limitadas pela ambiguidade a nível de token e pela falta de consciência espacial. Neste trabalho, introduzimos a Decodificação Especulativa Local Multi-Escala (MuLo-SD), uma estrutura nova que combina a geração de rascunhos em multi-resolução com verificação espacialmente informada para acelerar a geração de imagens AR. O nosso método aproveita um gerador de baixa resolução emparelhado com up-samplers aprendidos para propor tokens de imagem candidatos, que são depois verificados em paralelo por um modelo alvo de alta resolução. Crucialmente, incorporamos um mecanismo local de rejeição e reamostragem, permitindo uma correção eficiente de erros de rascunho ao focar em vizinhanças espaciais, em vez de reamostragem por varredura raster após a primeira rejeição. Demonstramos que a MuLo-SD alcança acelerações substanciais - até 1,7x - superando linhas de base fortes de decodificação especulativa, como EAGLE-2 e LANTERN, em termos de aceleração, mantendo uma alinhamento semântico e qualidade perceptual comparáveis. Estes resultados são validados usando GenEval, DPG-Bench e FID/HPSv2 na divisão de validação de 5k do MS-COCO. Ablações extensivas destacam o impacto do design de up-sampling, do pooling de probabilidades e da rejeição e reamostragem local com expansão de vizinhança. A nossa abordagem estabelece um novo estado da arte em decodificação especulativa para síntese de imagens, colmatando o fosso entre eficiência e fidelidade.

English

Autoregressive (AR) models have achieved remarkable success in image synthesis, yet their sequential nature imposes significant latency constraints. Speculative Decoding offers a promising avenue for acceleration, but existing approaches are limited by token-level ambiguity and lack of spatial awareness. In this work, we introduce Multi-Scale Local Speculative Decoding (MuLo-SD), a novel framework that combines multi-resolution drafting with spatially informed verification to accelerate AR image generation. Our method leverages a low-resolution drafter paired with learned up-samplers to propose candidate image tokens, which are then verified in parallel by a high-resolution target model. Crucially, we incorporate a local rejection and resampling mechanism, enabling efficient correction of draft errors by focusing on spatial neighborhoods rather than raster-scan resampling after the first rejection. We demonstrate that MuLo-SD achieves substantial speedups - up to 1.7times - outperforming strong speculative decoding baselines such as EAGLE-2 and LANTERN in terms of acceleration, while maintaining comparable semantic alignment and perceptual quality. These results are validated using GenEval, DPG-Bench, and FID/HPSv2 on the MS-COCO 5k validation split. Extensive ablations highlight the impact of up-sampling design, probability pooling, and local rejection and resampling with neighborhood expansion. Our approach sets a new state-of-the-art in speculative decoding for image synthesis, bridging the gap between efficiency and fidelity.