ChatPaper.aiChatPaper

Entenda Antes de Gerar: Treinamento Autoguiado para Geração Autoregressiva de Imagens

Understand Before You Generate: Self-Guided Training for Autoregressive Image Generation

September 18, 2025
Autores: Xiaoyu Yue, Zidong Wang, Yuqing Wang, Wenlong Zhang, Xihui Liu, Wanli Ouyang, Lei Bai, Luping Zhou
cs.AI

Resumo

Estudos recentes demonstraram a importância de representações visuais de alta qualidade na geração de imagens e destacaram as limitações dos modelos generativos na compreensão de imagens. Como um paradigma generativo originalmente projetado para linguagem natural, os modelos autoregressivos enfrentam desafios semelhantes. Neste trabalho, apresentamos a primeira investigação sistemática sobre os mecanismos de aplicação do paradigma de previsão do próximo token ao domínio visual. Identificamos três propriedades-chave que dificultam a aprendizagem de semântica visual de alto nível: dependência local e condicional, inconsistência semântica entre etapas e deficiência de invariância espacial. Mostramos que esses problemas podem ser efetivamente abordados pela introdução de objetivos auto-supervisionados durante o treinamento, levando a um novo framework de treinamento, o Self-guided Training for AutoRegressive models (ST-AR). Sem depender de modelos de representação pré-treinados, o ST-AR melhora significativamente a capacidade de compreensão de imagens dos modelos autoregressivos e resulta em uma qualidade de geração aprimorada. Especificamente, o ST-AR traz uma melhoria de aproximadamente 42% no FID para o LlamaGen-L e 49% no FID para o LlamaGen-XL, mantendo a mesma estratégia de amostragem.
English
Recent studies have demonstrated the importance of high-quality visual representations in image generation and have highlighted the limitations of generative models in image understanding. As a generative paradigm originally designed for natural language, autoregressive models face similar challenges. In this work, we present the first systematic investigation into the mechanisms of applying the next-token prediction paradigm to the visual domain. We identify three key properties that hinder the learning of high-level visual semantics: local and conditional dependence, inter-step semantic inconsistency, and spatial invariance deficiency. We show that these issues can be effectively addressed by introducing self-supervised objectives during training, leading to a novel training framework, Self-guided Training for AutoRegressive models (ST-AR). Without relying on pre-trained representation models, ST-AR significantly enhances the image understanding ability of autoregressive models and leads to improved generation quality. Specifically, ST-AR brings approximately 42% FID improvement for LlamaGen-L and 49% FID improvement for LlamaGen-XL, while maintaining the same sampling strategy.
PDF282September 19, 2025