StageVAR: Поэтапное ускорение визуальных авторегрессионных моделей
StageVAR: Stage-Aware Acceleration for Visual Autoregressive Models
December 18, 2025
Авторы: Senmao Li, Kai Wang, Salman Khan, Fahad Shahbaz Khan, Jian Yang, Yaxing Wang
cs.AI
Аннотация
Визуальное авторегрессионное (VAR) моделирование отличается от парадигмы предсказания следующего токена в традиционных авторегрессионных (AR) моделях за счет предсказания следующего масштаба, что обеспечивает генерацию изображений высокого качества. Однако парадигма VAR страдает от резкого роста вычислительной сложности и времени выполнения на крупных шагах. Хотя существующие методы ускорения сокращают время работы для крупных шагов, они опираются на ручной выбор шагов и упускают из виду varying importance различных стадий процесса генерации. Для решения этой проблемы мы представляем StageVAR — систематическое исследование и фреймворк для ускорения VAR-моделей с учетом стадийности. Наш анализ показывает, что ранние шаги критически важны для сохранения семантической и структурной согласованности и должны оставаться нетронутыми, тогда как поздние шаги в основном уточняют детали и могут быть подвергнуты pruning или аппроксимации для ускорения. Основываясь на этих выводах, StageVAR представляет plug-and-play стратегию ускорения, которая использует семантическую нерелевантность и low-rank свойства вычислений на поздних стадиях, не требуя дополнительного обучения. Наш предложенный StageVAR достигает до 3.4-кратного ускорения при падении всего на 0.01 балла на GenEval и на 0.26 балла на DPG, последовательно превосходя существующие базовые методы ускорения. Эти результаты подчеркивают, что проектирование с учетом стадийности является мощным принципом для эффективной визуальной авторегрессионной генерации изображений.
English
Visual Autoregressive (VAR) modeling departs from the next-token prediction paradigm of traditional Autoregressive (AR) models through next-scale prediction, enabling high-quality image generation. However, the VAR paradigm suffers from sharply increased computational complexity and running time at large-scale steps. Although existing acceleration methods reduce runtime for large-scale steps, but rely on manual step selection and overlook the varying importance of different stages in the generation process. To address this challenge, we present StageVAR, a systematic study and stage-aware acceleration framework for VAR models. Our analysis shows that early steps are critical for preserving semantic and structural consistency and should remain intact, while later steps mainly refine details and can be pruned or approximated for acceleration. Building on these insights, StageVAR introduces a plug-and-play acceleration strategy that exploits semantic irrelevance and low-rank properties in late-stage computations, without requiring additional training. Our proposed StageVAR achieves up to 3.4x speedup with only a 0.01 drop on GenEval and a 0.26 decrease on DPG, consistently outperforming existing acceleration baselines. These results highlight stage-aware design as a powerful principle for efficient visual autoregressive image generation.