ChatPaper.aiChatPaper

Repensando a Dinâmica de Treinamento na Geração Autoregressiva Escalonada

Rethinking Training Dynamics in Scale-wise Autoregressive Generation

December 6, 2025
Autores: Gengze Zhou, Chongjian Ge, Hao Tan, Feng Liu, Yicong Hong
cs.AI

Resumo

Os recentes avanços em modelos generativos autorregressivos (AR) têm produzido sistemas cada vez mais poderosos para síntese de mídia. Entre eles, a previsão em escala progressiva emergiu como um paradigma popular, onde os modelos geram imagens de maneira grossa-para-fina. No entanto, os modelos AR por escala sofrem com o *exposure bias* (viés de exposição), o que prejudica a qualidade da geração. Identificamos duas causas primárias para este problema: (1) o descompasso treino-teste, onde o modelo deve confiar em suas próprias previsões imperfeitas durante a inferência, e (2) o desequilíbrio na dificuldade de aprendizado por escala, onde certas escalas exibem complexidade de otimização desproporcionalmente maior. Através de uma análise abrangente da dinâmica de treinamento, propomos o Refinamento Auto-Autorregressivo (SAR) para abordar estas limitações. O SAR introduz um mecanismo de *Stagger-Scale Rollout* (SSR) que executa rollouts autorregressivos leves para expor o modelo às suas próprias previsões intermediárias, alinhando assim os padrões de treino e teste, e uma *Contrastive Student-Forcing Loss* (CSFL) complementar que fornece supervisão adequada para contextos autogerados, garantindo um treinamento estável. Resultados experimentais mostram que a aplicação do SAR a modelos AR pré-treinados melhora consistentemente a qualidade da geração com sobrecarga computacional mínima. Por exemplo, o SAR proporciona uma redução de 5.2% no FID no FlexVAR-d16 treinado no ImageNet 256 em apenas 10 épocas (5 horas em 32 GPUs A100). Dada sua eficiência, escalabilidade e eficácia, esperamos que o SAR sirva como um método confiável de pós-treinamento para geração visual autorregressiva.
English
Recent advances in autoregressive (AR) generative models have produced increasingly powerful systems for media synthesis. Among them, next-scale prediction has emerged as a popular paradigm, where models generate images in a coarse-to-fine manner. However, scale-wise AR models suffer from exposure bias, which undermines generation quality. We identify two primary causes of this issue: (1) train-test mismatch, where the model must rely on its own imperfect predictions during inference, and (2) imbalance in scale-wise learning difficulty, where certain scales exhibit disproportionately higher optimization complexity. Through a comprehensive analysis of training dynamics, we propose Self-Autoregressive Refinement (SAR) to address these limitations. SAR introduces a Stagger-Scale Rollout (SSR) mechanism that performs lightweight autoregressive rollouts to expose the model to its own intermediate predictions, thereby aligning train-test patterns, and a complementary Contrastive Student-Forcing Loss (CSFL) that provides adequate supervision for self-generated contexts to ensure stable training. Experimental results show that applying SAR to pretrained AR models consistently improves generation quality with minimal computational overhead. For instance, SAR yields a 5.2% FID reduction on FlexVAR-d16 trained on ImageNet 256 within 10 epochs (5 hours on 32xA100 GPUs). Given its efficiency, scalability, and effectiveness, we expect SAR to serve as a reliable post-training method for visual autoregressive generation.
PDF72February 7, 2026