ChatPaper.aiChatPaper

スケールワイズ自己回帰生成における学習ダイナミクスの再考

Rethinking Training Dynamics in Scale-wise Autoregressive Generation

December 6, 2025
著者: Gengze Zhou, Chongjian Ge, Hao Tan, Feng Liu, Yicong Hong
cs.AI

要旨

自己回帰(AR)生成モデルの最近の進歩により、メディア合成のための高性能システムが次々と登場している。中でも、モデルが粗い解像度から細かい解像度へと画像を生成する「次スケール予測」が一般的なパラダイムとして確立されつつある。しかし、スケール単位のARモデルは公開バイアス(exposure bias)に悩まされており、生成品質を損なう要因となっている。本研究ではこの問題の根本原因を、(1) 推論時にモデルが自身の不完全な予測に依存せざるを得ない「学習-テストミスマッチ」と、(2) 特定のスケールで最適化の複雑性が不均衡に高くなる「スケール間学習難易度の偏り」の二点に特定する。訓練ダイナミクスの包括的分析を通じて、これらの課題を解決するため自己回帰的改良(Self-Autoregressive Refinement: SAR)を提案する。SARは、(a) 軽量な自己回帰的ロールアウトによりモデルを自身の中間予測に曝露することで学習-テストパターンを整合させる「段階的スケールロールアウト(Stagger-Scale Rollout: SSR)」機構と、(b) 自己生成文脈に対する適切な監督信号を提供し訓練の安定性を確保する「対照的教師強制損失(Contrastive Student-Forcing Loss: CSFL)」を補完的に導入する。実験結果では、事前学習済みARモデルにSARを適用することで、最小限の計算コストで生成品質が一貫して向上することを示す。例えば、ImageNet 256で学習したFlexVAR-d16において、10エポック(32xA100 GPUで5時間)の適用でFIDが5.2%改善された。効率性・拡張性・有効性の観点から、SARは視覚的自己回帰生成における信頼性の高い学習後処理手法として貢献することが期待される。
English
Recent advances in autoregressive (AR) generative models have produced increasingly powerful systems for media synthesis. Among them, next-scale prediction has emerged as a popular paradigm, where models generate images in a coarse-to-fine manner. However, scale-wise AR models suffer from exposure bias, which undermines generation quality. We identify two primary causes of this issue: (1) train-test mismatch, where the model must rely on its own imperfect predictions during inference, and (2) imbalance in scale-wise learning difficulty, where certain scales exhibit disproportionately higher optimization complexity. Through a comprehensive analysis of training dynamics, we propose Self-Autoregressive Refinement (SAR) to address these limitations. SAR introduces a Stagger-Scale Rollout (SSR) mechanism that performs lightweight autoregressive rollouts to expose the model to its own intermediate predictions, thereby aligning train-test patterns, and a complementary Contrastive Student-Forcing Loss (CSFL) that provides adequate supervision for self-generated contexts to ensure stable training. Experimental results show that applying SAR to pretrained AR models consistently improves generation quality with minimal computational overhead. For instance, SAR yields a 5.2% FID reduction on FlexVAR-d16 trained on ImageNet 256 within 10 epochs (5 hours on 32xA100 GPUs). Given its efficiency, scalability, and effectiveness, we expect SAR to serve as a reliable post-training method for visual autoregressive generation.
PDF32December 10, 2025