Neubewertung der Trainingsdynamik bei skalenweiser autoregressiver Generierung
Rethinking Training Dynamics in Scale-wise Autoregressive Generation
December 6, 2025
papers.authors: Gengze Zhou, Chongjian Ge, Hao Tan, Feng Liu, Yicong Hong
cs.AI
papers.abstract
Jüngste Fortschritte bei autoregressiven (AR) Generativmodellen haben zunehmend leistungsfähige Systeme für die Mediensynthese hervorgebracht. Dabei hat sich die Next-Scale-Prädiktion als populäres Paradigma etabliert, bei dem Modelle Bilder in einer grob-zu-fein Art und Weise generieren. Allerdings leiden skalierungsweise AR-Modelle unter Exposure Bias, was die Generierungsqualität beeinträchtigt. Wir identifizieren zwei Hauptursachen für dieses Problem: (1) Train-Test-Mismatch, bei dem das Modell während der Inferenz auf seine eigenen unvollkommenen Vorhersagen angewiesen ist, und (2) ein Ungleichgewicht im skalierungsweisen Lernschwierigkeitsgrad, bei dem bestimmte Skalen unverhältnismäßig höhere Optimierungskomplexität aufweisen. Durch eine umfassende Analyse der Trainingsdynamik schlagen wir Self-Autoregressive Refinement (SAR) vor, um diese Einschränkungen zu adressieren. SAR führt einen Stagger-Scale Rollout (SSR)-Mechanismus ein, der leichte autoregressive Rollouts durchführt, um das Modell seinen eigenen Zwischenvorhersagen auszusetzen und so Train-Test-Muster in Einklang zu bringen, sowie einen komplementären Contrastive Student-Forcing Loss (CSFL), der eine angemessene Überwachung für selbstgenerierte Kontexte bereitstellt, um stabiles Training zu gewährleisten. Experimentelle Ergebnisse zeigen, dass die Anwendung von SAR auf vortrainierte AR-Modelle die Generierungsqualität konsistent bei minimalem Rechenaufwand verbessert. So erzielt SAR beispielsweise eine Reduktion des FID um 5,2 % bei FlexVAR-d16, trainiert auf ImageNet 256, innerhalb von 10 Epochen (5 Stunden auf 32xA100 GPUs). Aufgrund seiner Effizienz, Skalierbarkeit und Wirksamkeit erwarten wir, dass SAR als zuverlässige Nachtrainingsmethode für die visuelle autoregressive Generierung dienen wird.
English
Recent advances in autoregressive (AR) generative models have produced increasingly powerful systems for media synthesis. Among them, next-scale prediction has emerged as a popular paradigm, where models generate images in a coarse-to-fine manner. However, scale-wise AR models suffer from exposure bias, which undermines generation quality. We identify two primary causes of this issue: (1) train-test mismatch, where the model must rely on its own imperfect predictions during inference, and (2) imbalance in scale-wise learning difficulty, where certain scales exhibit disproportionately higher optimization complexity. Through a comprehensive analysis of training dynamics, we propose Self-Autoregressive Refinement (SAR) to address these limitations. SAR introduces a Stagger-Scale Rollout (SSR) mechanism that performs lightweight autoregressive rollouts to expose the model to its own intermediate predictions, thereby aligning train-test patterns, and a complementary Contrastive Student-Forcing Loss (CSFL) that provides adequate supervision for self-generated contexts to ensure stable training. Experimental results show that applying SAR to pretrained AR models consistently improves generation quality with minimal computational overhead. For instance, SAR yields a 5.2% FID reduction on FlexVAR-d16 trained on ImageNet 256 within 10 epochs (5 hours on 32xA100 GPUs). Given its efficiency, scalability, and effectiveness, we expect SAR to serve as a reliable post-training method for visual autoregressive generation.