ImageRAG: Dynamische Bildretrieval für referenzgesteuerte Bildgenerierung
ImageRAG: Dynamic Image Retrieval for Reference-Guided Image Generation
February 13, 2025
Autoren: Rotem Shalev-Arkushin, Rinon Gal, Amit H. Bermano, Ohad Fried
cs.AI
Zusammenfassung
Diffusionsmodelle ermöglichen die Synthese von hochwertigen und vielfältigen visuellen Inhalten.
Allerdings haben sie Schwierigkeiten, seltene oder unbekannte Konzepte zu generieren. Um diese Herausforderung zu bewältigen, untersuchen wir die Verwendung von Retrieval-Augmented Generation (RAG) in Kombination mit Bildgenerierungsmodellen. Wir stellen ImageRAG vor, eine Methode, die basierend auf einem gegebenen Textprompt relevante Bilder dynamisch abruft und diese als Kontext zur Steuerung des Generierungsprozesses nutzt. Frühere Ansätze, die abgerufene Bilder zur Verbesserung der Generierung verwendeten, trainierten Modelle speziell für die retrieval-basierte Generierung. Im Gegensatz dazu nutzt ImageRAG die Fähigkeiten bestehender bildbedingter Modelle und erfordert kein RAG-spezifisches Training. Unser Ansatz ist hochgradig anpassbar und kann auf verschiedene Modelltypen angewendet werden, wobei er eine signifikante Verbesserung bei der Generierung seltener und fein abgestufter Konzepte mit verschiedenen Basismodellen zeigt.
Unsere Projektseite ist verfügbar unter: https://rotem-shalev.github.io/ImageRAG
English
Diffusion models enable high-quality and diverse visual content synthesis.
However, they struggle to generate rare or unseen concepts. To address this
challenge, we explore the usage of Retrieval-Augmented Generation (RAG) with
image generation models. We propose ImageRAG, a method that dynamically
retrieves relevant images based on a given text prompt, and uses them as
context to guide the generation process. Prior approaches that used retrieved
images to improve generation, trained models specifically for retrieval-based
generation. In contrast, ImageRAG leverages the capabilities of existing image
conditioning models, and does not require RAG-specific training. Our approach
is highly adaptable and can be applied across different model types, showing
significant improvement in generating rare and fine-grained concepts using
different base models.
Our project page is available at: https://rotem-shalev.github.io/ImageRAGSummary
AI-Generated Summary