ChatPaper.aiChatPaper

StageVAR: Accelerazione Consapevole dello Stadio per Modelli Autoregressivi Visivi

StageVAR: Stage-Aware Acceleration for Visual Autoregressive Models

December 18, 2025
Autori: Senmao Li, Kai Wang, Salman Khan, Fahad Shahbaz Khan, Jian Yang, Yaxing Wang
cs.AI

Abstract

La modellazione VAR (Visual Autoregressive) si discosta dal paradigma di previsione del token successivo dei modelli AR tradizionali attraverso la previsione a scala successiva, abilitando una generazione di immagini di alta qualità. Tuttavia, il paradigma VAR soffre di una complessità computazionale e un tempo di esecuzione che aumentano drasticamente con passi di scala grandi. Sebbene i metodi di accelerazione esistenti riducano il runtime per passi di scala grandi, essi si basano su una selezione manuale dei passi e trascurano l'importanza variabile delle diverse fasi nel processo di generazione. Per affrontare questa sfida, presentiamo StageVAR, uno studio sistematico e un framework di accelerazione consapevole delle fasi per i modelli VAR. La nostra analisi mostra che i primi passi sono critici per preservare la coerenza semantica e strutturale e dovrebbero rimanere intatti, mentre i passi successivi perfezionano principalmente i dettagli e possono essere potati o approssimati per l'accelerazione. Basandosi su queste intuizioni, StageVAR introduce una strategia di accelerazione plug-and-play che sfrutta l'irrilevanza semantica e le proprietà di basso rango nei calcoli delle fasi tardive, senza richiedere training aggiuntivo. Il nostro StageVAR proposto raggiunge un speedup fino a 3.4x con un calo di soli 0.01 su GenEval e una diminuzione di 0.26 su DPG, superando costantemente i baseline di accelerazione esistenti. Questi risultati evidenziano il design consapevole delle fasi come un principio potente per una generazione di immagini autoregressiva visiva efficiente.
English
Visual Autoregressive (VAR) modeling departs from the next-token prediction paradigm of traditional Autoregressive (AR) models through next-scale prediction, enabling high-quality image generation. However, the VAR paradigm suffers from sharply increased computational complexity and running time at large-scale steps. Although existing acceleration methods reduce runtime for large-scale steps, but rely on manual step selection and overlook the varying importance of different stages in the generation process. To address this challenge, we present StageVAR, a systematic study and stage-aware acceleration framework for VAR models. Our analysis shows that early steps are critical for preserving semantic and structural consistency and should remain intact, while later steps mainly refine details and can be pruned or approximated for acceleration. Building on these insights, StageVAR introduces a plug-and-play acceleration strategy that exploits semantic irrelevance and low-rank properties in late-stage computations, without requiring additional training. Our proposed StageVAR achieves up to 3.4x speedup with only a 0.01 drop on GenEval and a 0.26 decrease on DPG, consistently outperforming existing acceleration baselines. These results highlight stage-aware design as a powerful principle for efficient visual autoregressive image generation.
PDF51December 23, 2025