ChatPaper.aiChatPaper

Извлечение семантически осознанных порядков для авторегрессивной генерации изображений

Distilling semantically aware orders for autoregressive image generation

April 23, 2025
Авторы: Rishav Pramanik, Antoine Poupon, Juan A. Rodriguez, Masih Aminbeidokhti, David Vazquez, Christopher Pal, Zhaozheng Yin, Marco Pedersoli
cs.AI

Аннотация

Авторегрессионная генерация изображений на основе патчей недавно продемонстрировала конкурентоспособные результаты с точки зрения качества изображений и масштабируемости. Она также может быть легко интегрирована и масштабирована в рамках моделей Vision-Language. Тем не менее, авторегрессионные модели требуют определенного порядка для генерации патчей. В то время как естественный порядок, основанный на последовательности слов, имеет смысл для генерации текста, для генерации изображений не существует естественного порядка генерации. Традиционно авторегрессионные модели генерации изображений используют порядок растрового сканирования (сверху-слева вниз-вправо). В данной работе мы утверждаем, что этот порядок является неоптимальным, так как он не учитывает причинно-следственные связи в содержании изображения: например, при условии визуального описания заката авторегрессионная модель может сгенерировать облака до солнца, хотя цвет облаков должен зависеть от цвета солнца, а не наоборот. В этой работе мы показываем, что, во-первых, обучив модель генерировать патчи в произвольном порядке, мы можем выводить как содержание, так и местоположение (порядок) каждого патча в процессе генерации. Во-вторых, мы используем эти извлеченные порядки для тонкой настройки модели с произвольным порядком генерации, чтобы получать изображения более высокого качества. Наши эксперименты на двух наборах данных демонстрируют, что этот новый метод генерации создает более качественные изображения по сравнению с традиционным подходом растрового сканирования, при аналогичных затратах на обучение и без дополнительных аннотаций.
English
Autoregressive patch-based image generation has recently shown competitive results in terms of image quality and scalability. It can also be easily integrated and scaled within Vision-Language models. Nevertheless, autoregressive models require a defined order for patch generation. While a natural order based on the dictation of the words makes sense for text generation, there is no inherent generation order that exists for image generation. Traditionally, a raster-scan order (from top-left to bottom-right) guides autoregressive image generation models. In this paper, we argue that this order is suboptimal, as it fails to respect the causality of the image content: for instance, when conditioned on a visual description of a sunset, an autoregressive model may generate clouds before the sun, even though the color of clouds should depend on the color of the sun and not the inverse. In this work, we show that first by training a model to generate patches in any-given-order, we can infer both the content and the location (order) of each patch during generation. Secondly, we use these extracted orders to finetune the any-given-order model to produce better-quality images. Through our experiments, we show on two datasets that this new generation method produces better images than the traditional raster-scan approach, with similar training costs and no extra annotations.

Summary

AI-Generated Summary

PDF52April 25, 2025