생성 전 이해하기: 자기 주도적 학습을 통한 자기회귀적 이미지 생성
Understand Before You Generate: Self-Guided Training for Autoregressive Image Generation
September 18, 2025
저자: Xiaoyu Yue, Zidong Wang, Yuqing Wang, Wenlong Zhang, Xihui Liu, Wanli Ouyang, Lei Bai, Luping Zhou
cs.AI
초록
최근 연구들은 이미지 생성에서 고품질 시각적 표현의 중요성을 입증하고, 이미지 이해에 있어 생성 모델의 한계를 부각시켰습니다. 자연어 처리용으로 원래 설계된 생성 패러다임인 자기회귀 모델도 유사한 문제에 직면하고 있습니다. 본 연구에서는 다음 토큰 예측 패러다임을 시각적 영역에 적용하는 메커니즘에 대한 첫 번째 체계적인 조사를 제시합니다. 우리는 고수준 시각적 의미 학습을 방해하는 세 가지 주요 속성을 확인했습니다: 지역적 및 조건적 의존성, 단계 간 의미 불일치, 공간 불변성 결핍. 이러한 문제들이 훈련 과정에서 자기지도 목적 함수를 도입함으로써 효과적으로 해결될 수 있음을 보여주며, 이를 통해 새로운 훈련 프레임워크인 자기회귀 모델을 위한 자기 지도 훈련(ST-AR)을 제안합니다. 사전 훈련된 표현 모델에 의존하지 않고도 ST-AR은 자기회귀 모델의 이미지 이해 능력을 크게 향상시키고 생성 품질을 개선합니다. 구체적으로, ST-AR은 동일한 샘플링 전략을 유지하면서 LlamaGen-L의 경우 약 42%의 FID 개선, LlamaGen-XL의 경우 49%의 FID 개선을 가져옵니다.
English
Recent studies have demonstrated the importance of high-quality visual
representations in image generation and have highlighted the limitations of
generative models in image understanding. As a generative paradigm originally
designed for natural language, autoregressive models face similar challenges.
In this work, we present the first systematic investigation into the mechanisms
of applying the next-token prediction paradigm to the visual domain. We
identify three key properties that hinder the learning of high-level visual
semantics: local and conditional dependence, inter-step semantic inconsistency,
and spatial invariance deficiency. We show that these issues can be effectively
addressed by introducing self-supervised objectives during training, leading to
a novel training framework, Self-guided Training for AutoRegressive models
(ST-AR). Without relying on pre-trained representation models, ST-AR
significantly enhances the image understanding ability of autoregressive models
and leads to improved generation quality. Specifically, ST-AR brings
approximately 42% FID improvement for LlamaGen-L and 49% FID improvement for
LlamaGen-XL, while maintaining the same sampling strategy.