Ripensare le dinamiche di addestramento nella generazione autoregressiva a livello di scala
Rethinking Training Dynamics in Scale-wise Autoregressive Generation
December 6, 2025
Autori: Gengze Zhou, Chongjian Ge, Hao Tan, Feng Liu, Yicong Hong
cs.AI
Abstract
I recenti progressi nei modelli generativi autoregressivi (AR) hanno prodotto sistemi sempre più potenti per la sintesi di contenuti multimediali. Tra questi, la previsione multi-scala è emersa come un paradigma popolare, in cui i modelli generano immagini in maniera coarse-to-fine (da grossolana a dettagliata). Tuttavia, i modelli AR scalari soffrono di exposure bias (bias di esposizione), che compromette la qualità della generazione. Identifichiamo due cause primarie di questo problema: (1) il disallineamento train-test, per cui il modello durante l'inferenza deve fare affidamento sulle proprie previsioni imperfette, e (2) lo squilibrio nella difficoltà di apprendimento per scala, per cui determinate scale presentano una complessità di ottimizzazione sproporzionatamente più alta. Attraverso un'analisi completa delle dinamiche di addestramento, proponiamo l'Affinamento Auto-Autoregressivo (SAR) per affrontare queste limitazioni. SAR introduce un meccanismo di Rollout a Scale Sfalsate (SSR) che esegue rollout autoregressivi leggeri per esporre il modello alle proprie previsioni intermedie, allineando così gli schemi di train e test, e una complementare Loss di Contrasto e Student-Forcing (CSFL) che fornisce una supervisione adeguata per i contesti auto-generati, garantendo un addestramento stabile. I risultati sperimentali mostrano che l'applicazione di SAR a modelli AR pre-addestrati migliora costantemente la qualità della generazione con un overhead computazionale minimo. Ad esempio, SAR produce una riduzione del FID del 5,2% su FlexVAR-d16 addestrato su ImageNet 256x256 in sole 10 epoche (5 ore su 32 GPU A100). Data la sua efficienza, scalabilità ed efficacia, ci aspettiamo che SAR possa servire come metodo affidabile di post-addestramento per la generazione visiva autoregressiva.
English
Recent advances in autoregressive (AR) generative models have produced increasingly powerful systems for media synthesis. Among them, next-scale prediction has emerged as a popular paradigm, where models generate images in a coarse-to-fine manner. However, scale-wise AR models suffer from exposure bias, which undermines generation quality. We identify two primary causes of this issue: (1) train-test mismatch, where the model must rely on its own imperfect predictions during inference, and (2) imbalance in scale-wise learning difficulty, where certain scales exhibit disproportionately higher optimization complexity. Through a comprehensive analysis of training dynamics, we propose Self-Autoregressive Refinement (SAR) to address these limitations. SAR introduces a Stagger-Scale Rollout (SSR) mechanism that performs lightweight autoregressive rollouts to expose the model to its own intermediate predictions, thereby aligning train-test patterns, and a complementary Contrastive Student-Forcing Loss (CSFL) that provides adequate supervision for self-generated contexts to ensure stable training. Experimental results show that applying SAR to pretrained AR models consistently improves generation quality with minimal computational overhead. For instance, SAR yields a 5.2% FID reduction on FlexVAR-d16 trained on ImageNet 256 within 10 epochs (5 hours on 32xA100 GPUs). Given its efficiency, scalability, and effectiveness, we expect SAR to serve as a reliable post-training method for visual autoregressive generation.