Replanteamiento de la dinámicas de entrenamiento en la generación autoregresiva escalonada
Rethinking Training Dynamics in Scale-wise Autoregressive Generation
December 6, 2025
Autores: Gengze Zhou, Chongjian Ge, Hao Tan, Feng Liu, Yicong Hong
cs.AI
Resumen
Los recientes avances en modelos generativos autorregresivos (AR) han producido sistemas cada vez más potentes para la síntesis de medios. Entre ellos, la predicción multiescala ha surgido como un paradigma popular, donde los modelos generan imágenes de manera to-a-fino. Sin embargo, los modelos AR por escala adolecen de sesgo de exposición, lo que socava la calidad de la generación. Identificamos dos causas principales de este problema: (1) la discrepancia entre entrenamiento y prueba, donde el modelo debe depender de sus propias predicciones imperfectas durante la inferencia, y (2) el desequilibrio en la dificultad de aprendizaje por escala, donde ciertas escalas exhiben una complejidad de optimización desproporcionadamente mayor. Mediante un análisis exhaustivo de la dinámica del entrenamiento, proponemos el Refinamiento Auto-Autorregresivo (SAR) para abordar estas limitaciones. SAR introduce un mecanismo de Despliegue Escalonado (SSR) que realiza despliegues autorregresivos ligeros para exponer el modelo a sus propias predicciones intermedias, alineando así los patrones de entrenamiento y prueba, y una Pérdida de Forzado Estudiantil Contrastante (CSFL) complementaria que proporciona una supervisión adecuada para los contextos autogenerados para garantizar un entrenamiento estable. Los resultados experimentales muestran que la aplicación de SAR a modelos AR preentrenados mejora consistentemente la calidad de la generación con una sobrecarga computacional mínima. Por ejemplo, SAR produce una reducción del 5.2% en FID para FlexVAR-d16 entrenado en ImageNet 256 dentro de 10 épocas (5 horas en 32 GPUs A100). Dada su eficiencia, escalabilidad y efectividad, esperamos que SAR sirva como un método confiable de post-entrenamiento para la generación visual autorregresiva.
English
Recent advances in autoregressive (AR) generative models have produced increasingly powerful systems for media synthesis. Among them, next-scale prediction has emerged as a popular paradigm, where models generate images in a coarse-to-fine manner. However, scale-wise AR models suffer from exposure bias, which undermines generation quality. We identify two primary causes of this issue: (1) train-test mismatch, where the model must rely on its own imperfect predictions during inference, and (2) imbalance in scale-wise learning difficulty, where certain scales exhibit disproportionately higher optimization complexity. Through a comprehensive analysis of training dynamics, we propose Self-Autoregressive Refinement (SAR) to address these limitations. SAR introduces a Stagger-Scale Rollout (SSR) mechanism that performs lightweight autoregressive rollouts to expose the model to its own intermediate predictions, thereby aligning train-test patterns, and a complementary Contrastive Student-Forcing Loss (CSFL) that provides adequate supervision for self-generated contexts to ensure stable training. Experimental results show that applying SAR to pretrained AR models consistently improves generation quality with minimal computational overhead. For instance, SAR yields a 5.2% FID reduction on FlexVAR-d16 trained on ImageNet 256 within 10 epochs (5 hours on 32xA100 GPUs). Given its efficiency, scalability, and effectiveness, we expect SAR to serve as a reliable post-training method for visual autoregressive generation.