ChatPaper.aiChatPaper

StageVAR: Stadiaal Bewuste Versnelling voor Visuele Autoregressieve Modellen

StageVAR: Stage-Aware Acceleration for Visual Autoregressive Models

December 18, 2025
Auteurs: Senmao Li, Kai Wang, Salman Khan, Fahad Shahbaz Khan, Jian Yang, Yaxing Wang
cs.AI

Samenvatting

Visueel Autoregressief (VAR) modelleren wijkt af van het next-token-voorspellingsparadigma van traditionele Autoregressieve (AR) modellen door middel van next-scale-voorspelling, wat hoogwaardige beeldgeneratie mogelijk maakt. Het VAR-paradigma kampt echter met een sterk toegenomen rekencomplexiteit en looptijd bij grootschalige stappen. Hoewel bestaande versnellingsmethoden de looptijd voor grootschalige stappen verminderen, zijn ze afhankelijk van handmatige stapselectie en negeren ze de uiteenlopende belangrijkheid van verschillende fasen in het generatieproces. Om deze uitdaging aan te pakken, presenteren wij StageVAR, een systematische studie en een fasebewust versnellingsraamwerk voor VAR-modellen. Onze analyse toont aan dat vroege stappen cruciaal zijn voor het behoud van semantische en structurele consistentie en intact moeten blijven, terwijl latere stappen voornamelijk details verfijnen en kunnen worden weggelaten of benaderd voor versnelling. Gebaseerd op deze inzichten introduceert StageVAR een plug-and-play versnellingsstrategie die gebruikmaakt van semantische irrelevantie en low-rank-eigenschappen in latere-faseberekeningen, zonder aanvullende training te vereisen. Onze voorgestelde StageVAR bereikt een versnelling tot 3,4x met slechts een daling van 0,01 op GenEval en een afname van 0,26 op DPG, en presteert consistent beter dan bestaande versnellingsbasislijnen. Deze resultaten benadrukken fasebewust ontwerp als een krachtig principe voor efficiënte visueel autoregressieve beeldgeneratie.
English
Visual Autoregressive (VAR) modeling departs from the next-token prediction paradigm of traditional Autoregressive (AR) models through next-scale prediction, enabling high-quality image generation. However, the VAR paradigm suffers from sharply increased computational complexity and running time at large-scale steps. Although existing acceleration methods reduce runtime for large-scale steps, but rely on manual step selection and overlook the varying importance of different stages in the generation process. To address this challenge, we present StageVAR, a systematic study and stage-aware acceleration framework for VAR models. Our analysis shows that early steps are critical for preserving semantic and structural consistency and should remain intact, while later steps mainly refine details and can be pruned or approximated for acceleration. Building on these insights, StageVAR introduces a plug-and-play acceleration strategy that exploits semantic irrelevance and low-rank properties in late-stage computations, without requiring additional training. Our proposed StageVAR achieves up to 3.4x speedup with only a 0.01 drop on GenEval and a 0.26 decrease on DPG, consistently outperforming existing acceleration baselines. These results highlight stage-aware design as a powerful principle for efficient visual autoregressive image generation.
PDF51December 23, 2025