Repenser la dynamique de l'entraînement dans la génération autorégressive par échelle
Rethinking Training Dynamics in Scale-wise Autoregressive Generation
December 6, 2025
papers.authors: Gengze Zhou, Chongjian Ge, Hao Tan, Feng Liu, Yicong Hong
cs.AI
papers.abstract
Les récents progrès des modèles génératifs autorégressifs (AR) ont donné naissance à des systèmes de synthèse de médias de plus en plus performants. Parmi eux, la prédiction multi-échelle est apparue comme un paradigme populaire, où les modèles génèrent des images de manière grossière à fine. Cependant, les modèles AR multi-échelles souffrent d'un biais d'exposition, ce qui nuit à la qualité de la génération. Nous identifions deux causes principales à ce problème : (1) le décalage entraînement-inférence, où le modèle doit s'appuyer sur ses propres prédictions imparfaites lors de l'inférence, et (2) un déséquilibre dans la difficulté d'apprentissage à chaque échelle, où certaines échelles présentent une complexité d'optimisation disproportionnellement plus élevée. Par une analyse approfondie de la dynamique d'entraînement, nous proposons l'Affinage Auto-Autorégressif (SAR) pour remédier à ces limitations. SAR introduit un mécanisme de Déploiement à Échelles Décalées (SSR) qui effectue des déploiements autorégressifs légers pour exposer le modèle à ses propres prédictions intermédiaires, alignant ainsi les patterns d'entraînement et d'inférence, ainsi qu'une fonction de perte complémentaire de Forçage de l'Étudiant par Contraste (CSFL) qui fournit une supervision adéquate pour les contextes auto-générés afin d'assurer un entraînement stable. Les résultats expérimentaux montrent que l'application de SAR à des modèles AR pré-entraînés améliore constamment la qualité de génération avec une surcharge computationnelle minime. Par exemple, SAR permet une réduction du FID de 5,2 % sur FlexVAR-d16 entraîné sur ImageNet 256 en seulement 10 époques (5 heures sur 32 GPU A100). Compte tenu de son efficacité, de son extensibilité et de son efficacité, nous estimons que SAR peut servir de méthode fiable de post-entraînement pour la génération visuelle autorégressive.
English
Recent advances in autoregressive (AR) generative models have produced increasingly powerful systems for media synthesis. Among them, next-scale prediction has emerged as a popular paradigm, where models generate images in a coarse-to-fine manner. However, scale-wise AR models suffer from exposure bias, which undermines generation quality. We identify two primary causes of this issue: (1) train-test mismatch, where the model must rely on its own imperfect predictions during inference, and (2) imbalance in scale-wise learning difficulty, where certain scales exhibit disproportionately higher optimization complexity. Through a comprehensive analysis of training dynamics, we propose Self-Autoregressive Refinement (SAR) to address these limitations. SAR introduces a Stagger-Scale Rollout (SSR) mechanism that performs lightweight autoregressive rollouts to expose the model to its own intermediate predictions, thereby aligning train-test patterns, and a complementary Contrastive Student-Forcing Loss (CSFL) that provides adequate supervision for self-generated contexts to ensure stable training. Experimental results show that applying SAR to pretrained AR models consistently improves generation quality with minimal computational overhead. For instance, SAR yields a 5.2% FID reduction on FlexVAR-d16 trained on ImageNet 256 within 10 epochs (5 hours on 32xA100 GPUs). Given its efficiency, scalability, and effectiveness, we expect SAR to serve as a reliable post-training method for visual autoregressive generation.