StageVAR: stufenbewusste Beschleunigung für visuelle autoregressive Modelle
StageVAR: Stage-Aware Acceleration for Visual Autoregressive Models
December 18, 2025
papers.authors: Senmao Li, Kai Wang, Salman Khan, Fahad Shahbaz Khan, Jian Yang, Yaxing Wang
cs.AI
papers.abstract
Visuelles Autoregressives (VAR) Modellierung weicht vom Next-Token-Predictions-Paradigma traditioneller Autoregressiver (AR) Modelle ab, indem es Next-Scale-Prediction verwendet und so hochwertige Bildgenerierung ermöglicht. Allerdings leidet das VAR-Paradigma unter stark erhöhter Rechenkomplexität und Laufzeit bei großen Skalenstufen. Obwohl bestehende Beschleunigungsmethoden die Laufzeit für große Skalenstufen reduzieren, basieren sie auf manueller Stufenauswahl und übersehen die unterschiedliche Bedeutung verschiedener Phasen im Generierungsprozess. Um diese Herausforderung zu bewältigen, präsentieren wir StageVAR, eine systematische Untersuchung und ein phasenbewusstes Beschleunigungsframework für VAR-Modelle. Unsere Analyse zeigt, dass frühe Schritte entscheidend für die Bewahrung semantischer und struktureller Konsistenz sind und unverändert bleiben sollten, während spätere Schritte hauptsächlich Details verfeinern und zur Beschleunigung beschnitten oder angenähert werden können. Aufbauend auf diesen Erkenntnissen führt StageVAR eine Plug-and-Play-Beschleunigungsstrategie ein, die semantische Irrelevanz und Low-Rank-Eigenschaften in Berechnungen der Spätphase ausnutzt, ohne zusätzliches Training zu erfordern. Unser vorgeschlagenes StageVAR erreicht eine bis zu 3,4-fache Beschleunigung bei nur einem Abfall von 0,01 auf GenEval und einer Verringerung von 0,26 auf DPG und übertrifft dabei konsistent bestehende Beschleunigungs-Baselines. Diese Ergebnisse unterstreichen das phasenbewusste Design als ein leistungsstarkes Prinzip für effiziente visuelle autoregressive Bildgenerierung.
English
Visual Autoregressive (VAR) modeling departs from the next-token prediction paradigm of traditional Autoregressive (AR) models through next-scale prediction, enabling high-quality image generation. However, the VAR paradigm suffers from sharply increased computational complexity and running time at large-scale steps. Although existing acceleration methods reduce runtime for large-scale steps, but rely on manual step selection and overlook the varying importance of different stages in the generation process. To address this challenge, we present StageVAR, a systematic study and stage-aware acceleration framework for VAR models. Our analysis shows that early steps are critical for preserving semantic and structural consistency and should remain intact, while later steps mainly refine details and can be pruned or approximated for acceleration. Building on these insights, StageVAR introduces a plug-and-play acceleration strategy that exploits semantic irrelevance and low-rank properties in late-stage computations, without requiring additional training. Our proposed StageVAR achieves up to 3.4x speedup with only a 0.01 drop on GenEval and a 0.26 decrease on DPG, consistently outperforming existing acceleration baselines. These results highlight stage-aware design as a powerful principle for efficient visual autoregressive image generation.