Поймите, прежде чем генерировать: самонаправленное обучение для авторегрессивной генерации изображений
Understand Before You Generate: Self-Guided Training for Autoregressive Image Generation
September 18, 2025
Авторы: Xiaoyu Yue, Zidong Wang, Yuqing Wang, Wenlong Zhang, Xihui Liu, Wanli Ouyang, Lei Bai, Luping Zhou
cs.AI
Аннотация
Недавние исследования продемонстрировали важность высококачественных визуальных представлений в генерации изображений и подчеркнули ограничения генеративных моделей в понимании изображений. Как генеративная парадигма, изначально разработанная для обработки естественного языка, авторегрессионные модели сталкиваются с аналогичными проблемами. В данной работе мы представляем первое систематическое исследование механизмов применения парадигмы предсказания следующего токена в визуальной области. Мы выделяем три ключевых свойства, которые препятствуют изучению высокоуровневой визуальной семантики: локальная и условная зависимость, семантическая несогласованность между шагами и недостаток пространственной инвариантности. Мы показываем, что эти проблемы могут быть эффективно решены за счет введения самоконтролируемых задач в процессе обучения, что приводит к новой обучающей структуре — Self-guided Training for AutoRegressive models (ST-AR). Без использования предварительно обученных моделей представлений ST-AR значительно улучшает способность авторегрессионных моделей понимать изображения и повышает качество генерации. В частности, ST-AR обеспечивает улучшение FID примерно на 42% для LlamaGen-L и на 49% для LlamaGen-XL при сохранении той же стратегии сэмплирования.
English
Recent studies have demonstrated the importance of high-quality visual
representations in image generation and have highlighted the limitations of
generative models in image understanding. As a generative paradigm originally
designed for natural language, autoregressive models face similar challenges.
In this work, we present the first systematic investigation into the mechanisms
of applying the next-token prediction paradigm to the visual domain. We
identify three key properties that hinder the learning of high-level visual
semantics: local and conditional dependence, inter-step semantic inconsistency,
and spatial invariance deficiency. We show that these issues can be effectively
addressed by introducing self-supervised objectives during training, leading to
a novel training framework, Self-guided Training for AutoRegressive models
(ST-AR). Without relying on pre-trained representation models, ST-AR
significantly enhances the image understanding ability of autoregressive models
and leads to improved generation quality. Specifically, ST-AR brings
approximately 42% FID improvement for LlamaGen-L and 49% FID improvement for
LlamaGen-XL, while maintaining the same sampling strategy.