ImageRAG: Dynamische Beeldretrieval voor Referentie-Gestuurde Beeldgeneratie
ImageRAG: Dynamic Image Retrieval for Reference-Guided Image Generation
February 13, 2025
Auteurs: Rotem Shalev-Arkushin, Rinon Gal, Amit H. Bermano, Ohad Fried
cs.AI
Samenvatting
Diffusiemodellen maken de synthese van hoogwaardige en diverse visuele inhoud mogelijk.
Ze hebben echter moeite met het genereren van zeldzame of onbekende concepten. Om deze
uitdaging aan te pakken, onderzoeken we het gebruik van Retrieval-Augmented Generation (RAG)
in combinatie met beeldgeneratiemodellen. We introduceren ImageRAG, een methode die dynamisch
relevante afbeeldingen ophaalt op basis van een gegeven tekstprompt en deze gebruikt als context
om het generatieproces te sturen. Eerdere benaderingen die opgehaalde afbeeldingen gebruikten om
de generatie te verbeteren, trainden modellen specifiek voor retrieval-gebaseerde generatie.
In tegenstelling hiermee maakt ImageRAG gebruik van de mogelijkheden van bestaande beeldconditioneringsmodellen
en vereist het geen RAG-specifieke training. Onze aanpak is zeer aanpasbaar en kan worden toegepast
op verschillende modeltypen, wat een aanzienlijke verbetering laat zien in het genereren van zeldzame
en fijnmazige concepten met behulp van verschillende basismodellen.
Onze projectpagina is beschikbaar op: https://rotem-shalev.github.io/ImageRAG
English
Diffusion models enable high-quality and diverse visual content synthesis.
However, they struggle to generate rare or unseen concepts. To address this
challenge, we explore the usage of Retrieval-Augmented Generation (RAG) with
image generation models. We propose ImageRAG, a method that dynamically
retrieves relevant images based on a given text prompt, and uses them as
context to guide the generation process. Prior approaches that used retrieved
images to improve generation, trained models specifically for retrieval-based
generation. In contrast, ImageRAG leverages the capabilities of existing image
conditioning models, and does not require RAG-specific training. Our approach
is highly adaptable and can be applied across different model types, showing
significant improvement in generating rare and fine-grained concepts using
different base models.
Our project page is available at: https://rotem-shalev.github.io/ImageRAGSummary
AI-Generated Summary