Begrijp Voordat Je Genereert: Zelfgestuurde Training voor Autoregressieve Beeldgeneratie
Understand Before You Generate: Self-Guided Training for Autoregressive Image Generation
September 18, 2025
Auteurs: Xiaoyu Yue, Zidong Wang, Yuqing Wang, Wenlong Zhang, Xihui Liu, Wanli Ouyang, Lei Bai, Luping Zhou
cs.AI
Samenvatting
Recente studies hebben het belang aangetoond van hoogwaardige visuele representaties bij beeldgeneratie en hebben de beperkingen van generatieve modellen in beeldbegrip benadrukt. Als een generatief paradigma dat oorspronkelijk is ontworpen voor natuurlijke taal, staan autoregressieve modellen voor vergelijkbare uitdagingen. In dit werk presenteren we het eerste systematische onderzoek naar de mechanismen van het toepassen van het next-token prediction-paradigma op het visuele domein. We identificeren drie belangrijke eigenschappen die het leren van hoogwaardige visuele semantiek belemmeren: lokale en conditionele afhankelijkheid, inter-stap semantische inconsistentie en ruimtelijke invariantie-deficiëntie. We tonen aan dat deze problemen effectief kunnen worden aangepakt door zelfgesuperviseerde doelen tijdens de training te introduceren, wat leidt tot een nieuw trainingsraamwerk, Self-guided Training for AutoRegressive models (ST-AR). Zonder te vertrouwen op vooraf getrainde representatiemodellen, verbetert ST-AR het beeldbegrip van autoregressieve modellen aanzienlijk en leidt het tot een verbeterde generatiekwaliteit. Specifiek brengt ST-AR een verbetering van ongeveer 42% FID voor LlamaGen-L en 49% FID voor LlamaGen-XL, terwijl dezelfde samplingstrategie wordt aangehouden.
English
Recent studies have demonstrated the importance of high-quality visual
representations in image generation and have highlighted the limitations of
generative models in image understanding. As a generative paradigm originally
designed for natural language, autoregressive models face similar challenges.
In this work, we present the first systematic investigation into the mechanisms
of applying the next-token prediction paradigm to the visual domain. We
identify three key properties that hinder the learning of high-level visual
semantics: local and conditional dependence, inter-step semantic inconsistency,
and spatial invariance deficiency. We show that these issues can be effectively
addressed by introducing self-supervised objectives during training, leading to
a novel training framework, Self-guided Training for AutoRegressive models
(ST-AR). Without relying on pre-trained representation models, ST-AR
significantly enhances the image understanding ability of autoregressive models
and leads to improved generation quality. Specifically, ST-AR brings
approximately 42% FID improvement for LlamaGen-L and 49% FID improvement for
LlamaGen-XL, while maintaining the same sampling strategy.