ChatPaper.aiChatPaper

AR-RAG : Augmentation Autoregressive par Récupération pour la Génération d'Images

AR-RAG: Autoregressive Retrieval Augmentation for Image Generation

June 8, 2025
Auteurs: Jingyuan Qi, Zhiyang Xu, Qifan Wang, Lifu Huang
cs.AI

Résumé

Nous présentons l’**Augmentation Autoregressive par Récupération** (AR-RAG), un nouveau paradigme qui améliore la génération d’images en incorporant de manière autoregressive des récupérations de plus proches voisins au niveau des patches. Contrairement aux méthodes précédentes qui effectuent une récupération unique et statique avant la génération et conditionnent l’ensemble du processus sur des images de référence fixes, AR-RAG réalise des récupérations contextuelles à chaque étape de génération, en utilisant les patches générés précédemment comme requêtes pour récupérer et intégrer les références visuelles les plus pertinentes au niveau des patches. Cela permet au modèle de répondre aux besoins évolutifs de la génération tout en évitant les limitations (par exemple, la sur-copie, les biais stylistiques, etc.) prévalentes dans les méthodes existantes. Pour concrétiser AR-RAG, nous proposons deux cadres parallèles : (1) **l’Augmentation de Distribution dans le Décodage** (DAiD), une stratégie de décodage prête à l’emploi sans entraînement qui fusionne directement la distribution des patches prédits par le modèle avec celle des patches récupérés, et (2) **l’Augmentation de Caractéristiques dans le Décodage** (FAiD), une méthode de réglage fin efficace en paramètres qui lisse progressivement les caractéristiques des patches récupérés via des opérations de convolution multi-échelles et les exploite pour enrichir le processus de génération d’images. Nous validons l’efficacité d’AR-RAG sur des benchmarks largement adoptés, tels que Midjourney-30K, GenEval et DPG-Bench, démontrant des gains de performance significatifs par rapport aux modèles de génération d’images de pointe.
English
We introduce Autoregressive Retrieval Augmentation (AR-RAG), a novel paradigm that enhances image generation by autoregressively incorporating knearest neighbor retrievals at the patch level. Unlike prior methods that perform a single, static retrieval before generation and condition the entire generation on fixed reference images, AR-RAG performs context-aware retrievals at each generation step, using prior-generated patches as queries to retrieve and incorporate the most relevant patch-level visual references, enabling the model to respond to evolving generation needs while avoiding limitations (e.g., over-copying, stylistic bias, etc.) prevalent in existing methods. To realize AR-RAG, we propose two parallel frameworks: (1) Distribution-Augmentation in Decoding (DAiD), a training-free plug-and-use decoding strategy that directly merges the distribution of model-predicted patches with the distribution of retrieved patches, and (2) Feature-Augmentation in Decoding (FAiD), a parameter-efficient fine-tuning method that progressively smooths the features of retrieved patches via multi-scale convolution operations and leverages them to augment the image generation process. We validate the effectiveness of AR-RAG on widely adopted benchmarks, including Midjourney-30K, GenEval and DPG-Bench, demonstrating significant performance gains over state-of-the-art image generation models.
PDF262June 17, 2025