ChatPaper.aiChatPaper

StageVAR: 視覚自己回帰モデルのためのステージ対応高速化

StageVAR: Stage-Aware Acceleration for Visual Autoregressive Models

December 18, 2025
著者: Senmao Li, Kai Wang, Salman Khan, Fahad Shahbaz Khan, Jian Yang, Yaxing Wang
cs.AI

要旨

Visual Autoregressive (VAR)モデリングは、従来の自己回帰(AR)モデルにおける次トークン予測のパラダイムから脱却し、次スケール予測により高品質な画像生成を実現する。しかし、VARパラダイムは、スケールステップが大きくなるにつれて計算複雑性と実行時間が急激に増加するという課題を抱えている。既存の高速化手法は大規模ステップにおける実行時間を短縮するが、手動によるステップ選択に依存し、生成プロセスにおける各ステージの重要度の違いを見過ごしている。この課題に対処するため、本論文ではVARモデルのための体系的研究およびステージを考慮した高速化フレームワークであるStageVARを提案する。我々の分析によれば、初期ステップは意味的および構造的一貫性を保つ上で重要であり変更すべきでない一方、後期ステップは主に詳細を洗練するものであり、高速化のためには剪定または近似が可能である。これらの知見に基づき、StageVARは、追加の学習を必要とせず、後期ステージの計算における意味的無関係性と低ランク特性を活用するプラグアンドプレイ型の高速化戦略を導入する。提案するStageVARは、GenEvalではわずか0.01、DPGでは0.26の精度低下で最大3.4倍の高速化を達成し、既存の高速化ベースライン手法を一貫して上回る。これらの結果は、効率的な視覚的自己回帰画像生成において、ステージを考慮した設計が強力な原則であることを示唆している。
English
Visual Autoregressive (VAR) modeling departs from the next-token prediction paradigm of traditional Autoregressive (AR) models through next-scale prediction, enabling high-quality image generation. However, the VAR paradigm suffers from sharply increased computational complexity and running time at large-scale steps. Although existing acceleration methods reduce runtime for large-scale steps, but rely on manual step selection and overlook the varying importance of different stages in the generation process. To address this challenge, we present StageVAR, a systematic study and stage-aware acceleration framework for VAR models. Our analysis shows that early steps are critical for preserving semantic and structural consistency and should remain intact, while later steps mainly refine details and can be pruned or approximated for acceleration. Building on these insights, StageVAR introduces a plug-and-play acceleration strategy that exploits semantic irrelevance and low-rank properties in late-stage computations, without requiring additional training. Our proposed StageVAR achieves up to 3.4x speedup with only a 0.01 drop on GenEval and a 0.26 decrease on DPG, consistently outperforming existing acceleration baselines. These results highlight stage-aware design as a powerful principle for efficient visual autoregressive image generation.
PDF51December 23, 2025