ChatPaper.aiChatPaper

Comprendre avant de générer : Entraînement autoguidé pour la génération d'images autorégressive

Understand Before You Generate: Self-Guided Training for Autoregressive Image Generation

September 18, 2025
papers.authors: Xiaoyu Yue, Zidong Wang, Yuqing Wang, Wenlong Zhang, Xihui Liu, Wanli Ouyang, Lei Bai, Luping Zhou
cs.AI

papers.abstract

Des études récentes ont démontré l'importance des représentations visuelles de haute qualité dans la génération d'images et ont mis en lumière les limites des modèles génératifs dans la compréhension d'images. En tant que paradigme génératif initialement conçu pour le langage naturel, les modèles autorégressifs rencontrent des défis similaires. Dans ce travail, nous présentons la première investigation systématique des mécanismes d'application du paradigme de prédiction du prochain jeton au domaine visuel. Nous identifions trois propriétés clés qui entravent l'apprentissage de la sémantique visuelle de haut niveau : la dépendance locale et conditionnelle, l'incohérence sémantique inter-étapes et la déficience d'invariance spatiale. Nous montrons que ces problèmes peuvent être efficacement résolus en introduisant des objectifs auto-supervisés pendant l'entraînement, conduisant à un nouveau cadre d'entraînement, l'Entraînement Auto-guidé pour les Modèles AutoRegressifs (ST-AR). Sans recourir à des modèles de représentation pré-entraînés, ST-AR améliore significativement la capacité de compréhension d'images des modèles autorégressifs et conduit à une qualité de génération améliorée. Plus précisément, ST-AR apporte une amélioration d'environ 42 % du FID pour LlamaGen-L et de 49 % du FID pour LlamaGen-XL, tout en conservant la même stratégie d'échantillonnage.
English
Recent studies have demonstrated the importance of high-quality visual representations in image generation and have highlighted the limitations of generative models in image understanding. As a generative paradigm originally designed for natural language, autoregressive models face similar challenges. In this work, we present the first systematic investigation into the mechanisms of applying the next-token prediction paradigm to the visual domain. We identify three key properties that hinder the learning of high-level visual semantics: local and conditional dependence, inter-step semantic inconsistency, and spatial invariance deficiency. We show that these issues can be effectively addressed by introducing self-supervised objectives during training, leading to a novel training framework, Self-guided Training for AutoRegressive models (ST-AR). Without relying on pre-trained representation models, ST-AR significantly enhances the image understanding ability of autoregressive models and leads to improved generation quality. Specifically, ST-AR brings approximately 42% FID improvement for LlamaGen-L and 49% FID improvement for LlamaGen-XL, while maintaining the same sampling strategy.
PDF262September 19, 2025