AR-RAG : Augmentation Autoregressive par Récupération pour la Génération d'Images
AR-RAG: Autoregressive Retrieval Augmentation for Image Generation
June 8, 2025
Auteurs: Jingyuan Qi, Zhiyang Xu, Qifan Wang, Lifu Huang
cs.AI
Résumé
Nous présentons l’**Augmentation Autoregressive par Récupération** (AR-RAG), un nouveau paradigme qui améliore la génération d’images en incorporant de manière autoregressive des récupérations de plus proches voisins au niveau des patches. Contrairement aux méthodes précédentes qui effectuent une récupération unique et statique avant la génération et conditionnent l’ensemble du processus sur des images de référence fixes, AR-RAG réalise des récupérations contextuelles à chaque étape de génération, en utilisant les patches générés précédemment comme requêtes pour récupérer et intégrer les références visuelles les plus pertinentes au niveau des patches. Cela permet au modèle de répondre aux besoins évolutifs de la génération tout en évitant les limitations (par exemple, la sur-copie, les biais stylistiques, etc.) prévalentes dans les méthodes existantes. Pour concrétiser AR-RAG, nous proposons deux cadres parallèles : (1) **l’Augmentation de Distribution dans le Décodage** (DAiD), une stratégie de décodage prête à l’emploi sans entraînement qui fusionne directement la distribution des patches prédits par le modèle avec celle des patches récupérés, et (2) **l’Augmentation de Caractéristiques dans le Décodage** (FAiD), une méthode de réglage fin efficace en paramètres qui lisse progressivement les caractéristiques des patches récupérés via des opérations de convolution multi-échelles et les exploite pour enrichir le processus de génération d’images. Nous validons l’efficacité d’AR-RAG sur des benchmarks largement adoptés, tels que Midjourney-30K, GenEval et DPG-Bench, démontrant des gains de performance significatifs par rapport aux modèles de génération d’images de pointe.
English
We introduce Autoregressive Retrieval Augmentation (AR-RAG), a novel paradigm
that enhances image generation by autoregressively incorporating knearest
neighbor retrievals at the patch level. Unlike prior methods that perform a
single, static retrieval before generation and condition the entire generation
on fixed reference images, AR-RAG performs context-aware retrievals at each
generation step, using prior-generated patches as queries to retrieve and
incorporate the most relevant patch-level visual references, enabling the model
to respond to evolving generation needs while avoiding limitations (e.g.,
over-copying, stylistic bias, etc.) prevalent in existing methods. To realize
AR-RAG, we propose two parallel frameworks: (1) Distribution-Augmentation in
Decoding (DAiD), a training-free plug-and-use decoding strategy that directly
merges the distribution of model-predicted patches with the distribution of
retrieved patches, and (2) Feature-Augmentation in Decoding (FAiD), a
parameter-efficient fine-tuning method that progressively smooths the features
of retrieved patches via multi-scale convolution operations and leverages them
to augment the image generation process. We validate the effectiveness of
AR-RAG on widely adopted benchmarks, including Midjourney-30K, GenEval and
DPG-Bench, demonstrating significant performance gains over state-of-the-art
image generation models.