ImageRAG : Récupération dynamique d'images pour la génération d'images guidée par référence
ImageRAG: Dynamic Image Retrieval for Reference-Guided Image Generation
February 13, 2025
Auteurs: Rotem Shalev-Arkushin, Rinon Gal, Amit H. Bermano, Ohad Fried
cs.AI
Résumé
Les modèles de diffusion permettent une synthèse de contenu visuel de haute qualité et diversifié. Cependant, ils peinent à générer des concepts rares ou inédits. Pour relever ce défi, nous explorons l'utilisation de la Génération Augmentée par Récupération (RAG) avec des modèles de génération d'images. Nous proposons ImageRAG, une méthode qui récupère dynamiquement des images pertinentes en fonction d'une invite textuelle donnée, et les utilise comme contexte pour guider le processus de génération. Les approches antérieures qui utilisaient des images récupérées pour améliorer la génération formaient des modèles spécifiquement pour la génération basée sur la récupération. En revanche, ImageRAG exploite les capacités des modèles de conditionnement d'images existants et ne nécessite pas d'entraînement spécifique à la RAG. Notre approche est hautement adaptable et peut être appliquée à différents types de modèles, montrant une amélioration significative dans la génération de concepts rares et fins avec différents modèles de base.
Notre page de projet est disponible à l'adresse : https://rotem-shalev.github.io/ImageRAG
English
Diffusion models enable high-quality and diverse visual content synthesis.
However, they struggle to generate rare or unseen concepts. To address this
challenge, we explore the usage of Retrieval-Augmented Generation (RAG) with
image generation models. We propose ImageRAG, a method that dynamically
retrieves relevant images based on a given text prompt, and uses them as
context to guide the generation process. Prior approaches that used retrieved
images to improve generation, trained models specifically for retrieval-based
generation. In contrast, ImageRAG leverages the capabilities of existing image
conditioning models, and does not require RAG-specific training. Our approach
is highly adaptable and can be applied across different model types, showing
significant improvement in generating rare and fine-grained concepts using
different base models.
Our project page is available at: https://rotem-shalev.github.io/ImageRAGSummary
AI-Generated Summary