AR-RAG: Авторегрессионное расширение с извлечением данных для генерации изображений
AR-RAG: Autoregressive Retrieval Augmentation for Image Generation
June 8, 2025
Авторы: Jingyuan Qi, Zhiyang Xu, Qifan Wang, Lifu Huang
cs.AI
Аннотация
Мы представляем Autoregressive Retrieval Augmentation (AR-RAG) — новую парадигму, которая улучшает генерацию изображений за счет авторегрессивного включения поиска k ближайших соседей на уровне патчей. В отличие от предыдущих методов, которые выполняют единичный статический поиск перед генерацией и основывают весь процесс генерации на фиксированных эталонных изображениях, AR-RAG выполняет контекстно-зависимый поиск на каждом шаге генерации, используя ранее сгенерированные патчи в качестве запросов для поиска и включения наиболее релевантных визуальных эталонов на уровне патчей. Это позволяет модели адаптироваться к изменяющимся потребностям генерации, избегая ограничений (например, чрезмерного копирования, стилистических предубеждений и т.д.), характерных для существующих методов. Для реализации AR-RAG мы предлагаем две параллельные архитектуры: (1) Distribution-Augmentation in Decoding (DAiD) — стратегию декодирования без необходимости обучения, которая напрямую объединяет распределение предсказанных моделью патчей с распределением найденных патчей, и (2) Feature-Augmentation in Decoding (FAiD) — метод тонкой настройки с высокой параметрической эффективностью, который постепенно сглаживает признаки найденных патчей с помощью многомасштабных сверточных операций и использует их для улучшения процесса генерации изображений. Мы подтверждаем эффективность AR-RAG на широко используемых бенчмарках, включая Midjourney-30K, GenEval и DPG-Bench, демонстрируя значительное улучшение производительности по сравнению с современными моделями генерации изображений.
English
We introduce Autoregressive Retrieval Augmentation (AR-RAG), a novel paradigm
that enhances image generation by autoregressively incorporating knearest
neighbor retrievals at the patch level. Unlike prior methods that perform a
single, static retrieval before generation and condition the entire generation
on fixed reference images, AR-RAG performs context-aware retrievals at each
generation step, using prior-generated patches as queries to retrieve and
incorporate the most relevant patch-level visual references, enabling the model
to respond to evolving generation needs while avoiding limitations (e.g.,
over-copying, stylistic bias, etc.) prevalent in existing methods. To realize
AR-RAG, we propose two parallel frameworks: (1) Distribution-Augmentation in
Decoding (DAiD), a training-free plug-and-use decoding strategy that directly
merges the distribution of model-predicted patches with the distribution of
retrieved patches, and (2) Feature-Augmentation in Decoding (FAiD), a
parameter-efficient fine-tuning method that progressively smooths the features
of retrieved patches via multi-scale convolution operations and leverages them
to augment the image generation process. We validate the effectiveness of
AR-RAG on widely adopted benchmarks, including Midjourney-30K, GenEval and
DPG-Bench, demonstrating significant performance gains over state-of-the-art
image generation models.