ChatPaper.aiChatPaper

Verstehen, bevor Sie generieren: Selbstgesteuertes Training für autoregressive Bildgenerierung

Understand Before You Generate: Self-Guided Training for Autoregressive Image Generation

September 18, 2025
papers.authors: Xiaoyu Yue, Zidong Wang, Yuqing Wang, Wenlong Zhang, Xihui Liu, Wanli Ouyang, Lei Bai, Luping Zhou
cs.AI

papers.abstract

Aktuelle Studien haben die Bedeutung hochwertiger visueller Repräsentationen für die Bildgenerierung aufgezeigt und die Grenzen generativer Modelle im Bereich des Bildverständnisses hervorgehoben. Als ein ursprünglich für natürliche Sprache entwickeltes generatives Paradigma stehen autoregressive Modelle vor ähnlichen Herausforderungen. In dieser Arbeit präsentieren wir die erste systematische Untersuchung der Mechanismen zur Anwendung des Next-Token-Prediction-Paradigmas auf den visuellen Bereich. Wir identifizieren drei Schlüsseleigenschaften, die das Erlernen hochwertiger visueller Semantik behindern: lokale und bedingte Abhängigkeit, semantische Inkonsistenz zwischen Schritten und Mangel an räumlicher Invarianz. Wir zeigen, dass diese Probleme effektiv durch die Einführung selbstüberwachter Ziele während des Trainings gelöst werden können, was zu einem neuartigen Trainingsframework führt: Self-guided Training for AutoRegressive models (ST-AR). Ohne auf vortrainierte Repräsentationsmodelle zurückzugreifen, verbessert ST-AR die Bildverständnisfähigkeit autoregressiver Modelle erheblich und führt zu einer gesteigerten Generierungsqualität. Konkret bringt ST-AR eine Verbesserung des FID-Werts um etwa 42 % für LlamaGen-L und 49 % für LlamaGen-XL, während die gleiche Sampling-Strategie beibehalten wird.
English
Recent studies have demonstrated the importance of high-quality visual representations in image generation and have highlighted the limitations of generative models in image understanding. As a generative paradigm originally designed for natural language, autoregressive models face similar challenges. In this work, we present the first systematic investigation into the mechanisms of applying the next-token prediction paradigm to the visual domain. We identify three key properties that hinder the learning of high-level visual semantics: local and conditional dependence, inter-step semantic inconsistency, and spatial invariance deficiency. We show that these issues can be effectively addressed by introducing self-supervised objectives during training, leading to a novel training framework, Self-guided Training for AutoRegressive models (ST-AR). Without relying on pre-trained representation models, ST-AR significantly enhances the image understanding ability of autoregressive models and leads to improved generation quality. Specifically, ST-AR brings approximately 42% FID improvement for LlamaGen-L and 49% FID improvement for LlamaGen-XL, while maintaining the same sampling strategy.
PDF262September 19, 2025