AR-RAG: Autoregressieve Retrieval-augmentatie voor Beeldgeneratie
AR-RAG: Autoregressive Retrieval Augmentation for Image Generation
June 8, 2025
Auteurs: Jingyuan Qi, Zhiyang Xu, Qifan Wang, Lifu Huang
cs.AI
Samenvatting
We introduceren Autoregressive Retrieval Augmentation (AR-RAG), een nieuw paradigma dat beeldgeneratie verbetert door autoregressief k-nearest neighbor retrievals op patch-niveau te integreren. In tegenstelling tot eerdere methoden die een enkele, statische retrieval uitvoeren vóór de generatie en de volledige generatie conditioneren op vaste referentiebeelden, voert AR-RAG contextbewuste retrievals uit bij elke generatiestap, waarbij eerder gegenereerde patches als queries worden gebruikt om de meest relevante patch-niveau visuele referenties op te halen en te integreren. Hierdoor kan het model inspelen op evoluerende generatiebehoeften, terwijl beperkingen (bijvoorbeeld overmatig kopiëren, stilistische bias, etc.) die veel voorkomen in bestaande methoden worden vermeden. Om AR-RAG te realiseren, stellen we twee parallelle frameworks voor: (1) Distribution-Augmentation in Decoding (DAiD), een trainingsvrije plug-and-use decodeerstrategie die de distributie van model-voorspelde patches direct samenvoegt met de distributie van opgehaalde patches, en (2) Feature-Augmentation in Decoding (FAiD), een parameter-efficiënte fine-tuning methode die de features van opgehaalde patches geleidelijk gladstrijkt via multi-scale convolutie-operaties en deze gebruikt om het beeldgeneratieproces te versterken. We valideren de effectiviteit van AR-RAG op veelgebruikte benchmarks, waaronder Midjourney-30K, GenEval en DPG-Bench, en tonen aanzienlijke prestatieverbeteringen aan ten opzichte van state-of-the-art beeldgeneratiemodellen.
English
We introduce Autoregressive Retrieval Augmentation (AR-RAG), a novel paradigm
that enhances image generation by autoregressively incorporating knearest
neighbor retrievals at the patch level. Unlike prior methods that perform a
single, static retrieval before generation and condition the entire generation
on fixed reference images, AR-RAG performs context-aware retrievals at each
generation step, using prior-generated patches as queries to retrieve and
incorporate the most relevant patch-level visual references, enabling the model
to respond to evolving generation needs while avoiding limitations (e.g.,
over-copying, stylistic bias, etc.) prevalent in existing methods. To realize
AR-RAG, we propose two parallel frameworks: (1) Distribution-Augmentation in
Decoding (DAiD), a training-free plug-and-use decoding strategy that directly
merges the distribution of model-predicted patches with the distribution of
retrieved patches, and (2) Feature-Augmentation in Decoding (FAiD), a
parameter-efficient fine-tuning method that progressively smooths the features
of retrieved patches via multi-scale convolution operations and leverages them
to augment the image generation process. We validate the effectiveness of
AR-RAG on widely adopted benchmarks, including Midjourney-30K, GenEval and
DPG-Bench, demonstrating significant performance gains over state-of-the-art
image generation models.