Comprender antes de generar: Entrenamiento autoguiado para la generación autoregresiva de imágenes
Understand Before You Generate: Self-Guided Training for Autoregressive Image Generation
September 18, 2025
Autores: Xiaoyu Yue, Zidong Wang, Yuqing Wang, Wenlong Zhang, Xihui Liu, Wanli Ouyang, Lei Bai, Luping Zhou
cs.AI
Resumen
Estudios recientes han demostrado la importancia de las representaciones visuales de alta calidad en la generación de imágenes y han destacado las limitaciones de los modelos generativos en la comprensión de imágenes. Como un paradigma generativo diseñado originalmente para el lenguaje natural, los modelos autorregresivos enfrentan desafíos similares. En este trabajo, presentamos la primera investigación sistemática sobre los mecanismos de aplicar el paradigma de predicción del siguiente token al dominio visual. Identificamos tres propiedades clave que dificultan el aprendizaje de semánticas visuales de alto nivel: dependencia local y condicional, inconsistencia semántica entre pasos y deficiencia de invariancia espacial. Demostramos que estos problemas pueden abordarse efectivamente mediante la introducción de objetivos de auto-supervisión durante el entrenamiento, lo que conduce a un nuevo marco de entrenamiento, Entrenamiento AutoGuiado para Modelos Autorregresivos (ST-AR, por sus siglas en inglés). Sin depender de modelos de representación preentrenados, ST-AR mejora significativamente la capacidad de comprensión de imágenes de los modelos autorregresivos y conduce a una mejor calidad de generación. Específicamente, ST-AR aporta una mejora aproximada del 42% en FID para LlamaGen-L y del 49% en FID para LlamaGen-XL, manteniendo la misma estrategia de muestreo.
English
Recent studies have demonstrated the importance of high-quality visual
representations in image generation and have highlighted the limitations of
generative models in image understanding. As a generative paradigm originally
designed for natural language, autoregressive models face similar challenges.
In this work, we present the first systematic investigation into the mechanisms
of applying the next-token prediction paradigm to the visual domain. We
identify three key properties that hinder the learning of high-level visual
semantics: local and conditional dependence, inter-step semantic inconsistency,
and spatial invariance deficiency. We show that these issues can be effectively
addressed by introducing self-supervised objectives during training, leading to
a novel training framework, Self-guided Training for AutoRegressive models
(ST-AR). Without relying on pre-trained representation models, ST-AR
significantly enhances the image understanding ability of autoregressive models
and leads to improved generation quality. Specifically, ST-AR brings
approximately 42% FID improvement for LlamaGen-L and 49% FID improvement for
LlamaGen-XL, while maintaining the same sampling strategy.