StageVAR : Accélération adaptative par stade pour les modèles visuels autorégressifs
StageVAR: Stage-Aware Acceleration for Visual Autoregressive Models
December 18, 2025
papers.authors: Senmao Li, Kai Wang, Salman Khan, Fahad Shahbaz Khan, Jian Yang, Yaxing Wang
cs.AI
papers.abstract
La modélisation visuelle autorégressive (VAR) s'écarte du paradigme de prédiction de token suivant des modèles autorégressifs (AR) traditionnels grâce à la prédiction d'échelle suivante, permettant une génération d'images de haute qualité. Cependant, le paradigme VAR souffre d'une complexité computationnelle et d'un temps d'exécution fortement accrus à grande échelle. Bien que les méthodes d'accélération existantes réduisent le temps d'exécution pour les étapes à grande échelle, elles reposent sur une sélection manuelle des étapes et négligent l'importance variable des différentes phases du processus de génération. Pour relever ce défi, nous présentons StageVAR, une étude systématique et un cadre d'accélération conscient des phases pour les modèles VAR. Notre analyse montre que les premières étapes sont cruciales pour préserver la cohérence sémantique et structurelle et doivent rester intactes, tandis que les étapes ultérieures affinent principalement les détails et peuvent être élaguées ou approximées pour l'accélération. Sur la base de ces observations, StageVAR introduit une stratégie d'accélération plug-and-play qui exploite l'irrévérence sémantique et les propriétés de faible rang dans les calculs des phases tardives, sans nécessiter d'entraînement supplémentaire. Notre StageVAR proposé atteint une accélération jusqu'à 3,4x avec seulement une baisse de 0,01 sur GenEval et une diminution de 0,26 sur DPG, surpassant constamment les méthodes d'accélération de référence existantes. Ces résultats soulignent la conception consciente des phases comme un principe puissant pour une génération d'images visuelles autorégressives efficace.
English
Visual Autoregressive (VAR) modeling departs from the next-token prediction paradigm of traditional Autoregressive (AR) models through next-scale prediction, enabling high-quality image generation. However, the VAR paradigm suffers from sharply increased computational complexity and running time at large-scale steps. Although existing acceleration methods reduce runtime for large-scale steps, but rely on manual step selection and overlook the varying importance of different stages in the generation process. To address this challenge, we present StageVAR, a systematic study and stage-aware acceleration framework for VAR models. Our analysis shows that early steps are critical for preserving semantic and structural consistency and should remain intact, while later steps mainly refine details and can be pruned or approximated for acceleration. Building on these insights, StageVAR introduces a plug-and-play acceleration strategy that exploits semantic irrelevance and low-rank properties in late-stage computations, without requiring additional training. Our proposed StageVAR achieves up to 3.4x speedup with only a 0.01 drop on GenEval and a 0.26 decrease on DPG, consistently outperforming existing acceleration baselines. These results highlight stage-aware design as a powerful principle for efficient visual autoregressive image generation.