Decodifica Parallela Consapevole della Località per la Generazione Efficiente di Immagini Autoregressive
Locality-aware Parallel Decoding for Efficient Autoregressive Image Generation
July 2, 2025
Autori: Zhuoyang Zhang, Luke J. Huang, Chengyue Wu, Shang Yang, Kelly Peng, Yao Lu, Song Han
cs.AI
Abstract
Presentiamo il Decodifica Parallela con Consapevolezza Locale (LPD) per accelerare la generazione autoregressiva di immagini. La tradizionale generazione autoregressiva di immagini si basa sulla previsione della patch successiva, un processo vincolato dalla memoria che comporta un'elevata latenza. I lavori esistenti hanno tentato di parallelizzare la previsione della patch successiva passando alla previsione multi-patch per accelerare il processo, ma hanno ottenuto solo una parallelizzazione limitata. Per raggiungere un'elevata parallelizzazione mantenendo la qualità della generazione, introduciamo due tecniche chiave: (1) Modellazione Autoregressiva Parallelizzata Flessibile, una nuova architettura che consente un ordinamento di generazione arbitrario e gradi di parallelizzazione. Utilizza token di query posizionali apprendibili per guidare la generazione nelle posizioni target, garantendo al contempo la visibilità reciproca tra i token generati contemporaneamente per una decodifica parallela coerente. (2) Ordinamento della Generazione con Consapevolezza Locale, una nuova schedulazione che forma gruppi per minimizzare le dipendenze intra-gruppo e massimizzare il supporto contestuale, migliorando la qualità della generazione. Con questi progetti, riduciamo i passaggi di generazione da 256 a 20 (risoluzione 256x256) e da 1024 a 48 (risoluzione 512x512) senza compromettere la qualità nella generazione condizionata per classe su ImageNet, ottenendo una latenza almeno 3,4 volte inferiore rispetto ai precedenti modelli autoregressivi parallelizzati.
English
We present Locality-aware Parallel Decoding (LPD) to accelerate
autoregressive image generation. Traditional autoregressive image generation
relies on next-patch prediction, a memory-bound process that leads to high
latency. Existing works have tried to parallelize next-patch prediction by
shifting to multi-patch prediction to accelerate the process, but only achieved
limited parallelization. To achieve high parallelization while maintaining
generation quality, we introduce two key techniques: (1) Flexible Parallelized
Autoregressive Modeling, a novel architecture that enables arbitrary generation
ordering and degrees of parallelization. It uses learnable position query
tokens to guide generation at target positions while ensuring mutual visibility
among concurrently generated tokens for consistent parallel decoding. (2)
Locality-aware Generation Ordering, a novel schedule that forms groups to
minimize intra-group dependencies and maximize contextual support, enhancing
generation quality. With these designs, we reduce the generation steps from 256
to 20 (256times256 res.) and 1024 to 48 (512times512 res.) without
compromising quality on the ImageNet class-conditional generation, and
achieving at least 3.4times lower latency than previous parallelized
autoregressive models.