ChatPaper.aiChatPaper

스케일별 자기회귀 생성에서의 학습 동역학 재고찰

Rethinking Training Dynamics in Scale-wise Autoregressive Generation

December 6, 2025
저자: Gengze Zhou, Chongjian Ge, Hao Tan, Feng Liu, Yicong Hong
cs.AI

초록

자동회귀(AR) 생성 모델의 최근 발전으로 미디어 합성을 위한 강력한 시스템이 점차 등장하고 있다. 이 중 다음 단계 규모 예측은 모델이 coarse-to-fine 방식으로 이미지를 생성하는 인기 있는 패러다임으로 부상했다. 그러나 규모별 AR 모델은 생성 품질을 저해하는 노출 편향 문제를 겪는다. 우리는 이 문제의 두 가지 주요 원인을 규명했다: (1) 추론 시 모델이 자신의 불완전한 예측에 의존해야 하는 훈련-테스트 불일치, 그리고 (2) 특정 규모에서 불균형적으로 높은 최적화 복잡성이 나타나는 규모별 학습 난이도 불균형이다. 훈련 역학에 대한 포괄적 분석을 통해 우리는 이러한 한계를 해결하기 위한 자기-자동회귀 정교화(SAR)를 제안한다. SAR는 경량 자동회귀 롤아웃을 수행하여 모델이 자신의 중간 예측 결과를 접하도록 함으로써 훈련-테스트 패턴을 일치시키는 Stagger-Scale Rollout(SSR) 메커니즘과, 자기 생성 컨텍스트에 대한 적절한 감독을 제공하여 안정적인 훈련을 보장하는 상호 보완적인 Contrastive Student-Forcing Loss(CSFL)를 도입한다. 실험 결과는 사전 훈련된 AR 모델에 SAR를 적용하면 최소한의 계산 오버헤드로 생성 품질이 지속적으로 향상됨을 보여준다. 예를 들어, SAR는 ImageNet 256으로 훈련된 FlexVAR-d16에서 10에포크(32xA100 GPU 기준 5시간) 내에 5.2%의 FID 개선을 달성했다. 효율성, 확장성 및 효과성을 고려할 때, SAR는 시각적 자동회귀 생성을 위한 신뢰할 수 있는 사후 훈련 방법으로 기대된다.
English
Recent advances in autoregressive (AR) generative models have produced increasingly powerful systems for media synthesis. Among them, next-scale prediction has emerged as a popular paradigm, where models generate images in a coarse-to-fine manner. However, scale-wise AR models suffer from exposure bias, which undermines generation quality. We identify two primary causes of this issue: (1) train-test mismatch, where the model must rely on its own imperfect predictions during inference, and (2) imbalance in scale-wise learning difficulty, where certain scales exhibit disproportionately higher optimization complexity. Through a comprehensive analysis of training dynamics, we propose Self-Autoregressive Refinement (SAR) to address these limitations. SAR introduces a Stagger-Scale Rollout (SSR) mechanism that performs lightweight autoregressive rollouts to expose the model to its own intermediate predictions, thereby aligning train-test patterns, and a complementary Contrastive Student-Forcing Loss (CSFL) that provides adequate supervision for self-generated contexts to ensure stable training. Experimental results show that applying SAR to pretrained AR models consistently improves generation quality with minimal computational overhead. For instance, SAR yields a 5.2% FID reduction on FlexVAR-d16 trained on ImageNet 256 within 10 epochs (5 hours on 32xA100 GPUs). Given its efficiency, scalability, and effectiveness, we expect SAR to serve as a reliable post-training method for visual autoregressive generation.
PDF32December 10, 2025