Comprendere Prima di Generare: Formazione Autoguidata per la Generazione Autoregressiva di Immagini
Understand Before You Generate: Self-Guided Training for Autoregressive Image Generation
September 18, 2025
Autori: Xiaoyu Yue, Zidong Wang, Yuqing Wang, Wenlong Zhang, Xihui Liu, Wanli Ouyang, Lei Bai, Luping Zhou
cs.AI
Abstract
Recenti studi hanno dimostrato l'importanza di rappresentazioni visive di alta qualità nella generazione di immagini e hanno evidenziato i limiti dei modelli generativi nella comprensione delle immagini. In quanto paradigma generativo originariamente progettato per il linguaggio naturale, i modelli autoregressivi affrontano sfide simili. In questo lavoro, presentiamo la prima indagine sistematica sui meccanismi di applicazione del paradigma di previsione del token successivo al dominio visivo. Identifichiamo tre proprietà chiave che ostacolano l'apprendimento della semantica visiva di alto livello: dipendenza locale e condizionale, incoerenza semantica inter-step e carenza di invarianza spaziale. Mostriamo che questi problemi possono essere efficacemente affrontati introducendo obiettivi di auto-supervisione durante l'addestramento, portando a un nuovo framework di addestramento, Self-guided Training for AutoRegressive models (ST-AR). Senza fare affidamento su modelli di rappresentazione pre-addestrati, ST-AR migliora significativamente la capacità di comprensione delle immagini dei modelli autoregressivi e porta a una migliore qualità di generazione. In particolare, ST-AR apporta un miglioramento di circa il 42% nell'FID per LlamaGen-L e del 49% nell'FID per LlamaGen-XL, mantenendo la stessa strategia di campionamento.
English
Recent studies have demonstrated the importance of high-quality visual
representations in image generation and have highlighted the limitations of
generative models in image understanding. As a generative paradigm originally
designed for natural language, autoregressive models face similar challenges.
In this work, we present the first systematic investigation into the mechanisms
of applying the next-token prediction paradigm to the visual domain. We
identify three key properties that hinder the learning of high-level visual
semantics: local and conditional dependence, inter-step semantic inconsistency,
and spatial invariance deficiency. We show that these issues can be effectively
addressed by introducing self-supervised objectives during training, leading to
a novel training framework, Self-guided Training for AutoRegressive models
(ST-AR). Without relying on pre-trained representation models, ST-AR
significantly enhances the image understanding ability of autoregressive models
and leads to improved generation quality. Specifically, ST-AR brings
approximately 42% FID improvement for LlamaGen-L and 49% FID improvement for
LlamaGen-XL, while maintaining the same sampling strategy.