Heroverdenken van trainingsdynamieken in schaalgewijze autoregressieve generatie
Rethinking Training Dynamics in Scale-wise Autoregressive Generation
December 6, 2025
Auteurs: Gengze Zhou, Chongjian Ge, Hao Tan, Feng Liu, Yicong Hong
cs.AI
Samenvatting
Recente vooruitgang in autoregressieve (AR) generatieve modellen heeft steeds krachtigere systemen voor mediasynthese opgeleverd. Daaronder is next-scale-predictie naar voren gekomen als een populair paradigma, waarbij modellen beelden genereren op een coarse-to-fine-manier. Echter, scale-wise AR-modellen lijden onder exposure bias, wat de generatiekwaliteit aantast. Wij identificeren twee primaire oorzaken van dit probleem: (1) train-test-mismatch, waarbij het model tijdens inferentie moet vertrouwen op zijn eigen imperfecte voorspellingen, en (2) een onbalans in de leercomplexiteit per schaal, waarbij bepaalde schalen een onevenredig hogere optimalisatiecomplexiteit vertonen. Via een uitgebreide analyse van de traindynamiek stellen wij Self-Autoregressive Refinement (SAR) voor om deze beperkingen aan te pakken. SAR introduceert een Stagger-Scale Rollout (SSR)-mechanisme dat lichtgewicht autoregressieve rollouts uitvoert om het model bloot te stellen aan zijn eigen tussentijdse voorspellingen, waardoor train-test-patronen worden afgestemd, en een complementair Contrastive Student-Forcing Loss (CSFL) dat adequate supervisie biedt voor zelf gegenereerde contexten om stabiele training te garanderen. Experimentele resultaten tonen aan dat het toepassen van SAR op voorgetrainde AR-modellen de generatiekwaliteit consistent verbetert met minimale rekenkosten. Zo levert SAR bijvoorbeeld een FID-reductie van 5,2% op bij FlexVAR-d16 getraind op ImageNet 256 binnen 10 epochs (5 uur op 32xA100 GPU's). Gezien de efficiëntie, schaalbaarheid en effectiviteit verwachten wij dat SAR kan dienen als een betrouwbare post-training-methode voor visuele autoregressieve generatie.
English
Recent advances in autoregressive (AR) generative models have produced increasingly powerful systems for media synthesis. Among them, next-scale prediction has emerged as a popular paradigm, where models generate images in a coarse-to-fine manner. However, scale-wise AR models suffer from exposure bias, which undermines generation quality. We identify two primary causes of this issue: (1) train-test mismatch, where the model must rely on its own imperfect predictions during inference, and (2) imbalance in scale-wise learning difficulty, where certain scales exhibit disproportionately higher optimization complexity. Through a comprehensive analysis of training dynamics, we propose Self-Autoregressive Refinement (SAR) to address these limitations. SAR introduces a Stagger-Scale Rollout (SSR) mechanism that performs lightweight autoregressive rollouts to expose the model to its own intermediate predictions, thereby aligning train-test patterns, and a complementary Contrastive Student-Forcing Loss (CSFL) that provides adequate supervision for self-generated contexts to ensure stable training. Experimental results show that applying SAR to pretrained AR models consistently improves generation quality with minimal computational overhead. For instance, SAR yields a 5.2% FID reduction on FlexVAR-d16 trained on ImageNet 256 within 10 epochs (5 hours on 32xA100 GPUs). Given its efficiency, scalability, and effectiveness, we expect SAR to serve as a reliable post-training method for visual autoregressive generation.