StageVAR: Aceleração com Consciência de Estágio para Modelos Autoregressivos Visuais
StageVAR: Stage-Aware Acceleration for Visual Autoregressive Models
December 18, 2025
Autores: Senmao Li, Kai Wang, Salman Khan, Fahad Shahbaz Khan, Jian Yang, Yaxing Wang
cs.AI
Resumo
A modelagem Visual Autoregressiva (VAR) difere do paradigma de previsão do próximo token dos modelos Autoregressivos (AR) tradicionais através da previsão da próxima escala, permitindo a geração de imagens de alta qualidade. No entanto, o paradigma VAR sofre com um aumento acentuado da complexidade computacional e do tempo de execução em etapas de larga escala. Embora os métodos de aceleração existentes reduzam o tempo de execução para etapas de larga escala, eles dependem da seleção manual de etapas e ignoram a importância variável de diferentes estágios no processo de geração. Para enfrentar este desafio, apresentamos o StageVAR, um estudo sistemático e uma estrutura de aceleração consciente dos estágios para modelos VAR. Nossa análise mostra que as etapas iniciais são críticas para preservar a consistência semântica e estrutural e devem permanecer intactas, enquanto as etapas posteriores refinam principalmente detalhes e podem ser podadas ou aproximadas para aceleração. Com base nessas percepções, o StageVAR introduz uma estratégia de aceleração plug-and-play que explora a irrelevância semântica e as propriedades de baixa classificação (low-rank) nos cálculos de estágio final, sem exigir treinamento adicional. Nosso StageVAR proposto alcança uma aceleração de até 3,4x com apenas uma queda de 0,01 no GenEval e uma diminuição de 0,26 no DPG, superando consistentemente as linhas de base de aceleração existentes. Esses resultados destacam o design consciente dos estágios como um princípio poderoso para a geração eficiente de imagens autoregressivas visuais.
English
Visual Autoregressive (VAR) modeling departs from the next-token prediction paradigm of traditional Autoregressive (AR) models through next-scale prediction, enabling high-quality image generation. However, the VAR paradigm suffers from sharply increased computational complexity and running time at large-scale steps. Although existing acceleration methods reduce runtime for large-scale steps, but rely on manual step selection and overlook the varying importance of different stages in the generation process. To address this challenge, we present StageVAR, a systematic study and stage-aware acceleration framework for VAR models. Our analysis shows that early steps are critical for preserving semantic and structural consistency and should remain intact, while later steps mainly refine details and can be pruned or approximated for acceleration. Building on these insights, StageVAR introduces a plug-and-play acceleration strategy that exploits semantic irrelevance and low-rank properties in late-stage computations, without requiring additional training. Our proposed StageVAR achieves up to 3.4x speedup with only a 0.01 drop on GenEval and a 0.26 decrease on DPG, consistently outperforming existing acceleration baselines. These results highlight stage-aware design as a powerful principle for efficient visual autoregressive image generation.