ChatPaper.aiChatPaper

AR-RAG: Autoregressive Retrieval-Augmentierung für die Bildgenerierung

AR-RAG: Autoregressive Retrieval Augmentation for Image Generation

June 8, 2025
Autoren: Jingyuan Qi, Zhiyang Xu, Qifan Wang, Lifu Huang
cs.AI

Zusammenfassung

Wir stellen Autoregressive Retrieval Augmentation (AR-RAG) vor, ein neuartiges Paradigma, das die Bildgenerierung verbessert, indem es autoregressiv k-nächste-Nachbar-Retrievals auf Patch-Ebene einbezieht. Im Gegensatz zu früheren Methoden, die ein einzelnes, statisches Retrieval vor der Generierung durchführen und die gesamte Generierung auf festen Referenzbildern basieren, führt AR-RAG kontextbewusste Retrievals in jedem Generierungsschritt durch, indem es zuvor generierte Patches als Abfragen verwendet, um die relevantesten visuellen Referenzen auf Patch-Ebene zu ermitteln und einzubeziehen. Dadurch kann das Modell auf sich entwickelnde Generierungsanforderungen reagieren und gleichzeitig Einschränkungen (z. B. Überkopieren, stilistische Verzerrungen usw.) vermeiden, die in bestehenden Methoden weit verbreitet sind. Um AR-RAG zu realisieren, schlagen wir zwei parallele Frameworks vor: (1) Distribution-Augmentation in Decoding (DAiD), eine trainingsfreie Plug-and-Use-Decodierungsstrategie, die die Verteilung der vom Modell vorhergesagten Patches direkt mit der Verteilung der abgerufenen Patches zusammenführt, und (2) Feature-Augmentation in Decoding (FAiD), eine parameter-effiziente Feinabstimmungsmethode, die die Merkmale der abgerufenen Patches durch mehrstufige Faltungsoperationen schrittweise glättet und sie nutzt, um den Bildgenerierungsprozess zu erweitern. Wir validieren die Wirksamkeit von AR-RAG auf weit verbreiteten Benchmarks, darunter Midjourney-30K, GenEval und DPG-Bench, und zeigen signifikante Leistungssteigerungen gegenüber modernsten Bildgenerierungsmodellen.
English
We introduce Autoregressive Retrieval Augmentation (AR-RAG), a novel paradigm that enhances image generation by autoregressively incorporating knearest neighbor retrievals at the patch level. Unlike prior methods that perform a single, static retrieval before generation and condition the entire generation on fixed reference images, AR-RAG performs context-aware retrievals at each generation step, using prior-generated patches as queries to retrieve and incorporate the most relevant patch-level visual references, enabling the model to respond to evolving generation needs while avoiding limitations (e.g., over-copying, stylistic bias, etc.) prevalent in existing methods. To realize AR-RAG, we propose two parallel frameworks: (1) Distribution-Augmentation in Decoding (DAiD), a training-free plug-and-use decoding strategy that directly merges the distribution of model-predicted patches with the distribution of retrieved patches, and (2) Feature-Augmentation in Decoding (FAiD), a parameter-efficient fine-tuning method that progressively smooths the features of retrieved patches via multi-scale convolution operations and leverages them to augment the image generation process. We validate the effectiveness of AR-RAG on widely adopted benchmarks, including Midjourney-30K, GenEval and DPG-Bench, demonstrating significant performance gains over state-of-the-art image generation models.
PDF262June 17, 2025