Decodificação Paralela com Consciência de Localidade para Geração Eficiente de Imagens Autoregressivas
Locality-aware Parallel Decoding for Efficient Autoregressive Image Generation
July 2, 2025
Autores: Zhuoyang Zhang, Luke J. Huang, Chengyue Wu, Shang Yang, Kelly Peng, Yao Lu, Song Han
cs.AI
Resumo
Apresentamos a Decodificação Paralela com Consciência de Localidade (LPD) para acelerar a geração de imagens autoregressivas. A geração tradicional de imagens autoregressivas depende da previsão do próximo patch, um processo limitado pela memória que resulta em alta latência. Trabalhos existentes tentaram paralelizar a previsão do próximo patch ao mudar para a previsão de múltiplos patches para acelerar o processo, mas alcançaram apenas uma paralelização limitada. Para alcançar alta paralelização enquanto mantemos a qualidade da geração, introduzimos duas técnicas principais: (1) Modelagem Autoregressiva Paralelizada Flexível, uma nova arquitetura que permite ordenação arbitrária de geração e graus de paralelização. Ela utiliza tokens de consulta de posição aprendíveis para guiar a geração em posições-alvo, garantindo visibilidade mútua entre tokens gerados simultaneamente para uma decodificação paralela consistente. (2) Ordenação de Geração com Consciência de Localidade, um novo esquema que forma grupos para minimizar dependências intra-grupo e maximizar suporte contextual, melhorando a qualidade da geração. Com esses projetos, reduzimos os passos de geração de 256 para 20 (resolução 256x256) e de 1024 para 48 (resolução 512x512) sem comprometer a qualidade na geração condicional por classe do ImageNet, alcançando uma latência pelo menos 3,4 vezes menor do que modelos autoregressivos paralelizados anteriores.
English
We present Locality-aware Parallel Decoding (LPD) to accelerate
autoregressive image generation. Traditional autoregressive image generation
relies on next-patch prediction, a memory-bound process that leads to high
latency. Existing works have tried to parallelize next-patch prediction by
shifting to multi-patch prediction to accelerate the process, but only achieved
limited parallelization. To achieve high parallelization while maintaining
generation quality, we introduce two key techniques: (1) Flexible Parallelized
Autoregressive Modeling, a novel architecture that enables arbitrary generation
ordering and degrees of parallelization. It uses learnable position query
tokens to guide generation at target positions while ensuring mutual visibility
among concurrently generated tokens for consistent parallel decoding. (2)
Locality-aware Generation Ordering, a novel schedule that forms groups to
minimize intra-group dependencies and maximize contextual support, enhancing
generation quality. With these designs, we reduce the generation steps from 256
to 20 (256times256 res.) and 1024 to 48 (512times512 res.) without
compromising quality on the ImageNet class-conditional generation, and
achieving at least 3.4times lower latency than previous parallelized
autoregressive models.