Repensando a Dinâmica de Treinamento na Geração Autoregressiva Escalonada

Resumo

Os recentes avanços em modelos generativos autorregressivos (AR) têm produzido sistemas cada vez mais poderosos para síntese de mídia. Entre eles, a previsão em escala progressiva emergiu como um paradigma popular, onde os modelos geram imagens de maneira grossa-para-fina. No entanto, os modelos AR por escala sofrem com o *exposure bias* (viés de exposição), o que prejudica a qualidade da geração. Identificamos duas causas primárias para este problema: (1) o descompasso treino-teste, onde o modelo deve confiar em suas próprias previsões imperfeitas durante a inferência, e (2) o desequilíbrio na dificuldade de aprendizado por escala, onde certas escalas exibem complexidade de otimização desproporcionalmente maior. Através de uma análise abrangente da dinâmica de treinamento, propomos o Refinamento Auto-Autorregressivo (SAR) para abordar estas limitações. O SAR introduz um mecanismo de *Stagger-Scale Rollout* (SSR) que executa rollouts autorregressivos leves para expor o modelo às suas próprias previsões intermediárias, alinhando assim os padrões de treino e teste, e uma *Contrastive Student-Forcing Loss* (CSFL) complementar que fornece supervisão adequada para contextos autogerados, garantindo um treinamento estável. Resultados experimentais mostram que a aplicação do SAR a modelos AR pré-treinados melhora consistentemente a qualidade da geração com sobrecarga computacional mínima. Por exemplo, o SAR proporciona uma redução de 5.2% no FID no FlexVAR-d16 treinado no ImageNet 256 em apenas 10 épocas (5 horas em 32 GPUs A100). Dada sua eficiência, escalabilidade e eficácia, esperamos que o SAR sirva como um método confiável de pós-treinamento para geração visual autorregressiva.

English

Recent advances in autoregressive (AR) generative models have produced increasingly powerful systems for media synthesis. Among them, next-scale prediction has emerged as a popular paradigm, where models generate images in a coarse-to-fine manner. However, scale-wise AR models suffer from exposure bias, which undermines generation quality. We identify two primary causes of this issue: (1) train-test mismatch, where the model must rely on its own imperfect predictions during inference, and (2) imbalance in scale-wise learning difficulty, where certain scales exhibit disproportionately higher optimization complexity. Through a comprehensive analysis of training dynamics, we propose Self-Autoregressive Refinement (SAR) to address these limitations. SAR introduces a Stagger-Scale Rollout (SSR) mechanism that performs lightweight autoregressive rollouts to expose the model to its own intermediate predictions, thereby aligning train-test patterns, and a complementary Contrastive Student-Forcing Loss (CSFL) that provides adequate supervision for self-generated contexts to ensure stable training. Experimental results show that applying SAR to pretrained AR models consistently improves generation quality with minimal computational overhead. For instance, SAR yields a 5.2% FID reduction on FlexVAR-d16 trained on ImageNet 256 within 10 epochs (5 hours on 32xA100 GPUs). Given its efficiency, scalability, and effectiveness, we expect SAR to serve as a reliable post-training method for visual autoregressive generation.

Repensando a Dinâmica de Treinamento na Geração Autoregressiva Escalonada

Rethinking Training Dynamics in Scale-wise Autoregressive Generation

Resumo

Support