AR-RAG: Aumento Autoregressivo del Recupero per la Generazione di Immagini
AR-RAG: Autoregressive Retrieval Augmentation for Image Generation
June 8, 2025
Autori: Jingyuan Qi, Zhiyang Xu, Qifan Wang, Lifu Huang
cs.AI
Abstract
Introduciamo l'Autoregressive Retrieval Augmentation (AR-RAG), un nuovo paradigma che migliora la generazione di immagini incorporando in modo autoregressivo recuperi di k-vicini più prossimi a livello di patch. A differenza dei metodi precedenti che eseguono un singolo recupero statico prima della generazione e condizionano l'intera generazione su immagini di riferimento fisse, AR-RAG esegue recuperi contestuali ad ogni passo della generazione, utilizzando le patch generate in precedenza come query per recuperare e incorporare i riferimenti visivi a livello di patch più rilevanti, consentendo al modello di rispondere alle esigenze evolutive della generazione evitando limitazioni (ad esempio, copia eccessiva, bias stilistico, ecc.) prevalenti nei metodi esistenti. Per realizzare AR-RAG, proponiamo due framework paralleli: (1) Distribution-Augmentation in Decoding (DAiD), una strategia di decodifica plug-and-use senza addestramento che unisce direttamente la distribuzione delle patch previste dal modello con la distribuzione delle patch recuperate, e (2) Feature-Augmentation in Decoding (FAiD), un metodo di fine-tuning efficiente in termini di parametri che smussa progressivamente le caratteristiche delle patch recuperate tramite operazioni di convoluzione multi-scala e le sfrutta per aumentare il processo di generazione delle immagini. Validiamo l'efficacia di AR-RAG su benchmark ampiamente adottati, tra cui Midjourney-30K, GenEval e DPG-Bench, dimostrando significativi miglioramenti delle prestazioni rispetto ai modelli di generazione di immagini all'avanguardia.
English
We introduce Autoregressive Retrieval Augmentation (AR-RAG), a novel paradigm
that enhances image generation by autoregressively incorporating knearest
neighbor retrievals at the patch level. Unlike prior methods that perform a
single, static retrieval before generation and condition the entire generation
on fixed reference images, AR-RAG performs context-aware retrievals at each
generation step, using prior-generated patches as queries to retrieve and
incorporate the most relevant patch-level visual references, enabling the model
to respond to evolving generation needs while avoiding limitations (e.g.,
over-copying, stylistic bias, etc.) prevalent in existing methods. To realize
AR-RAG, we propose two parallel frameworks: (1) Distribution-Augmentation in
Decoding (DAiD), a training-free plug-and-use decoding strategy that directly
merges the distribution of model-predicted patches with the distribution of
retrieved patches, and (2) Feature-Augmentation in Decoding (FAiD), a
parameter-efficient fine-tuning method that progressively smooths the features
of retrieved patches via multi-scale convolution operations and leverages them
to augment the image generation process. We validate the effectiveness of
AR-RAG on widely adopted benchmarks, including Midjourney-30K, GenEval and
DPG-Bench, demonstrating significant performance gains over state-of-the-art
image generation models.