ImageRAG: Dynamische Bildretrieval für referenzgesteuerte Bildgenerierung

papers.abstract

Diffusionsmodelle ermöglichen die Synthese von hochwertigen und vielfältigen visuellen Inhalten. Allerdings haben sie Schwierigkeiten, seltene oder unbekannte Konzepte zu generieren. Um diese Herausforderung zu bewältigen, untersuchen wir die Verwendung von Retrieval-Augmented Generation (RAG) in Kombination mit Bildgenerierungsmodellen. Wir stellen ImageRAG vor, eine Methode, die basierend auf einem gegebenen Textprompt relevante Bilder dynamisch abruft und diese als Kontext zur Steuerung des Generierungsprozesses nutzt. Frühere Ansätze, die abgerufene Bilder zur Verbesserung der Generierung verwendeten, trainierten Modelle speziell für die retrieval-basierte Generierung. Im Gegensatz dazu nutzt ImageRAG die Fähigkeiten bestehender bildbedingter Modelle und erfordert kein RAG-spezifisches Training. Unser Ansatz ist hochgradig anpassbar und kann auf verschiedene Modelltypen angewendet werden, wobei er eine signifikante Verbesserung bei der Generierung seltener und fein abgestufter Konzepte mit verschiedenen Basismodellen zeigt. Unsere Projektseite ist verfügbar unter: https://rotem-shalev.github.io/ImageRAG

English

Diffusion models enable high-quality and diverse visual content synthesis. However, they struggle to generate rare or unseen concepts. To address this challenge, we explore the usage of Retrieval-Augmented Generation (RAG) with image generation models. We propose ImageRAG, a method that dynamically retrieves relevant images based on a given text prompt, and uses them as context to guide the generation process. Prior approaches that used retrieved images to improve generation, trained models specifically for retrieval-based generation. In contrast, ImageRAG leverages the capabilities of existing image conditioning models, and does not require RAG-specific training. Our approach is highly adaptable and can be applied across different model types, showing significant improvement in generating rare and fine-grained concepts using different base models. Our project page is available at: https://rotem-shalev.github.io/ImageRAG

ImageRAG: Dynamische Bildretrieval für referenzgesteuerte Bildgenerierung

ImageRAG: Dynamic Image Retrieval for Reference-Guided Image Generation

papers.abstract

Support