ChatPaper.aiChatPaper

StageVAR: Aceleración Consciente de la Etapa para Modelos Autoregresivos Visuales

StageVAR: Stage-Aware Acceleration for Visual Autoregressive Models

December 18, 2025
Autores: Senmao Li, Kai Wang, Salman Khan, Fahad Shahbaz Khan, Jian Yang, Yaxing Wang
cs.AI

Resumen

El modelado visual autorregresivo (VAR) se aparta del paradigma de predicción del siguiente token de los modelos autorregresivos (AR) tradicionales mediante la predicción de la siguiente escala, lo que permite una generación de imágenes de alta calidad. Sin embargo, el paradigma VAR sufre de un aumento pronunciado en la complejidad computacional y el tiempo de ejecución en pasos a gran escala. Aunque los métodos de aceleración existentes reducen el tiempo de ejecución para pasos a gran escala, dependen de una selección manual de pasos y pasan por alto la importancia variable de las diferentes etapas en el proceso de generación. Para abordar este desafío, presentamos StageVAR, un estudio sistemático y un marco de aceleración consciente de las etapas para modelos VAR. Nuestro análisis muestra que los primeros pasos son críticos para preservar la coherencia semántica y estructural y deben permanecer intactos, mientras que los pasos posteriores principalmente refinan detalles y pueden ser podados o aproximados para lograr aceleración. Basándonos en estas observaciones, StageVAR introduce una estrategia de aceleración plug-and-play que explota la irrelevancia semántica y las propiedades de bajo rango en los cálculos de etapas tardías, sin requerir entrenamiento adicional. Nuestro StageVAR propuesto logra una aceleración de hasta 3.4x con solo una caída de 0.01 en GenEval y una disminución de 0.26 en DPG, superando consistentemente los métodos de aceleración baseline existentes. Estos resultados destacan el diseño consciente de las etapas como un principio poderoso para la generación eficiente de imágenes autorregresivas visuales.
English
Visual Autoregressive (VAR) modeling departs from the next-token prediction paradigm of traditional Autoregressive (AR) models through next-scale prediction, enabling high-quality image generation. However, the VAR paradigm suffers from sharply increased computational complexity and running time at large-scale steps. Although existing acceleration methods reduce runtime for large-scale steps, but rely on manual step selection and overlook the varying importance of different stages in the generation process. To address this challenge, we present StageVAR, a systematic study and stage-aware acceleration framework for VAR models. Our analysis shows that early steps are critical for preserving semantic and structural consistency and should remain intact, while later steps mainly refine details and can be pruned or approximated for acceleration. Building on these insights, StageVAR introduces a plug-and-play acceleration strategy that exploits semantic irrelevance and low-rank properties in late-stage computations, without requiring additional training. Our proposed StageVAR achieves up to 3.4x speedup with only a 0.01 drop on GenEval and a 0.26 decrease on DPG, consistently outperforming existing acceleration baselines. These results highlight stage-aware design as a powerful principle for efficient visual autoregressive image generation.
PDF51December 23, 2025