ChatPaper.aiChatPaper

あなたの視覚自己回帰モデルには、多様性は常に存在してきました

Diversity Has Always Been There in Your Visual Autoregressive Models

November 21, 2025
著者: Tong Wang, Guanyu Yang, Nian Liu, Kai Wang, Yaxing Wang, Abdelrahman M Shaker, Salman Khan, Fahad Shahbaz Khan, Senmao Li
cs.AI

要旨

Visual Autoregressive(VAR)モデルは、革新的なnext-scale予測パラダイムにより近年注目を集めており、従来の多段階自己回帰(AR)モデルや拡散モデルと比較して、推論効率と画像品質の両方で顕著な利点を提供する。しかし、効率性にもかかわらず、VARモデルは多様性崩壊(diversity collapse)、すなわち出力の多様性低下に悩まされることが多い。これは、少ステップ蒸留拡散モデルで観察される現象と類似している。本論文では、追加の学習を一切必要とせずにVARモデルの生成多様性を回復させる、シンプルかつ効果的な手法DiverseVARを提案する。我々の分析により、初期スケールにおける多様性形成を支配する鍵要因として特徴マップの pivotal component が明らかになった。モデル入力ではこの pivotal component を抑制し、モデル出力ではそれを増幅することにより、DiverseVARは高精細な合成品質を維持しつつVARモデルが内在する生成可能性を効果的に解放する。実験結果は、本手法が性能への影響を無視できる程度に抑えながら、生成多様性を大幅に向上させることを実証している。コードは https://github.com/wangtong627/DiverseVAR で公開予定である。
English
Visual Autoregressive (VAR) models have recently garnered significant attention for their innovative next-scale prediction paradigm, offering notable advantages in both inference efficiency and image quality compared to traditional multi-step autoregressive (AR) and diffusion models. However, despite their efficiency, VAR models often suffer from the diversity collapse i.e., a reduction in output variability, analogous to that observed in few-step distilled diffusion models. In this paper, we introduce DiverseVAR, a simple yet effective approach that restores the generative diversity of VAR models without requiring any additional training. Our analysis reveals the pivotal component of the feature map as a key factor governing diversity formation at early scales. By suppressing the pivotal component in the model input and amplifying it in the model output, DiverseVAR effectively unlocks the inherent generative potential of VAR models while preserving high-fidelity synthesis. Empirical results demonstrate that our approach substantially enhances generative diversity with only neglectable performance influences. Our code will be publicly released at https://github.com/wangtong627/DiverseVAR.
PDF62December 1, 2025