StageVAR: 시각 자회귀 모델을 위한 단계 인식 가속화
StageVAR: Stage-Aware Acceleration for Visual Autoregressive Models
December 18, 2025
저자: Senmao Li, Kai Wang, Salman Khan, Fahad Shahbaz Khan, Jian Yang, Yaxing Wang
cs.AI
초록
시각적 자기회귀(VAR) 모델링은 다음 스케일 예측을 통해 기존 자기회귀(AR) 모델의 다음 토큰 예측 패러다임에서 벗어나 고품질 이미지 생성을 가능하게 합니다. 그러나 VAR 패러다임은 대규모 스텝에서 계산 복잡성과 실행 시간이 급격히 증가하는 문제점을 안고 있습니다. 기존 가속화 방법들은 대규모 스텝에 대한 실행 시간을 줄이지만, 수동 스텝 선택에 의존하며 생성 과정 내 다양한 단계의 중요도 차이를 간과합니다. 이러한 문제를 해결하기 위해 본 연구는 VAR 모델을 위한 체계적 연구 및 단계 인식 가속화 프레임워크인 StageVAR를 제안합니다. 우리의 분석에 따르면 초기 스텝은 의미론적 및 구조적 일관성 유지에 중요하므로 그대로 유지해야 하는 반면, 후기 스텝은 주로 세부 사항을 개선하므로 가속화를 위해 생략 또는 근사화될 수 있음이 나타났습니다. 이러한 통찰을 바탕으로 StageVAR는 추가 학습 없이 후기 단계 계산에서의 의미적 무관성 및 저랭크 특성을 활용하는 플러그 앤 플레이 가속화 전략을 도입합니다. 제안된 StageVAR는 GenEval에서 0.01, DPG에서 0.26의 미미한 성능 하락만으로 최대 3.4배의 가속화를 달성하며, 기존 가속화 베이스라인을 지속적으로 능가합니다. 이러한 결과는 단계 인식 설계가 효율적인 시각적 자기회귀 이미지 생성의 강력한 원칙임을 입증합니다.
English
Visual Autoregressive (VAR) modeling departs from the next-token prediction paradigm of traditional Autoregressive (AR) models through next-scale prediction, enabling high-quality image generation. However, the VAR paradigm suffers from sharply increased computational complexity and running time at large-scale steps. Although existing acceleration methods reduce runtime for large-scale steps, but rely on manual step selection and overlook the varying importance of different stages in the generation process. To address this challenge, we present StageVAR, a systematic study and stage-aware acceleration framework for VAR models. Our analysis shows that early steps are critical for preserving semantic and structural consistency and should remain intact, while later steps mainly refine details and can be pruned or approximated for acceleration. Building on these insights, StageVAR introduces a plug-and-play acceleration strategy that exploits semantic irrelevance and low-rank properties in late-stage computations, without requiring additional training. Our proposed StageVAR achieves up to 3.4x speedup with only a 0.01 drop on GenEval and a 0.26 decrease on DPG, consistently outperforming existing acceleration baselines. These results highlight stage-aware design as a powerful principle for efficient visual autoregressive image generation.