ImageRAG: Recuperação Dinâmica de Imagens para Geração de Imagens Orientada por Referência
ImageRAG: Dynamic Image Retrieval for Reference-Guided Image Generation
February 13, 2025
Autores: Rotem Shalev-Arkushin, Rinon Gal, Amit H. Bermano, Ohad Fried
cs.AI
Resumo
Modelos de difusão permitem a síntese de conteúdo visual de alta qualidade e diversidade. No entanto, eles enfrentam dificuldades para gerar conceitos raros ou nunca vistos. Para abordar esse desafio, exploramos o uso de Geração Aumentada por Recuperação (RAG, do inglês Retrieval-Augmented Generation) com modelos de geração de imagens. Propomos o ImageRAG, um método que recupera dinamicamente imagens relevantes com base em um prompt de texto fornecido e as utiliza como contexto para guiar o processo de geração. Abordagens anteriores que utilizaram imagens recuperadas para melhorar a geração treinaram modelos especificamente para geração baseada em recuperação. Em contraste, o ImageRAG aproveita as capacidades de modelos existentes de condicionamento de imagem e não requer treinamento específico para RAG. Nossa abordagem é altamente adaptável e pode ser aplicada a diferentes tipos de modelos, mostrando uma melhoria significativa na geração de conceitos raros e detalhados ao utilizar diferentes modelos base.
Nossa página do projeto está disponível em: https://rotem-shalev.github.io/ImageRAG
English
Diffusion models enable high-quality and diverse visual content synthesis.
However, they struggle to generate rare or unseen concepts. To address this
challenge, we explore the usage of Retrieval-Augmented Generation (RAG) with
image generation models. We propose ImageRAG, a method that dynamically
retrieves relevant images based on a given text prompt, and uses them as
context to guide the generation process. Prior approaches that used retrieved
images to improve generation, trained models specifically for retrieval-based
generation. In contrast, ImageRAG leverages the capabilities of existing image
conditioning models, and does not require RAG-specific training. Our approach
is highly adaptable and can be applied across different model types, showing
significant improvement in generating rare and fine-grained concepts using
different base models.
Our project page is available at: https://rotem-shalev.github.io/ImageRAGSummary
AI-Generated Summary