ImageRAG: Динамическое извлечение изображений для эталонно-управляемой генерации изображений
ImageRAG: Dynamic Image Retrieval for Reference-Guided Image Generation
February 13, 2025
Авторы: Rotem Shalev-Arkushin, Rinon Gal, Amit H. Bermano, Ohad Fried
cs.AI
Аннотация
Диффузионные модели позволяют синтезировать высококачественный и разнообразный визуальный контент. Однако они испытывают трудности с генерацией редких или ранее не встречавшихся концепций. Для решения этой проблемы мы исследуем использование подхода Retrieval-Augmented Generation (RAG) в сочетании с моделями генерации изображений. Мы предлагаем метод ImageRAG, который динамически извлекает релевантные изображения на основе текстового запроса и использует их в качестве контекста для управления процессом генерации. В отличие от предыдущих подходов, которые обучали модели специально для генерации на основе извлеченных данных, ImageRAG использует возможности существующих моделей с условием на изображения и не требует специального обучения для RAG. Наш подход обладает высокой адаптивностью и может быть применен к различным типам моделей, демонстрируя значительное улучшение в генерации редких и детализированных концепций с использованием различных базовых моделей.
Страница проекта доступна по адресу: https://rotem-shalev.github.io/ImageRAG
English
Diffusion models enable high-quality and diverse visual content synthesis.
However, they struggle to generate rare or unseen concepts. To address this
challenge, we explore the usage of Retrieval-Augmented Generation (RAG) with
image generation models. We propose ImageRAG, a method that dynamically
retrieves relevant images based on a given text prompt, and uses them as
context to guide the generation process. Prior approaches that used retrieved
images to improve generation, trained models specifically for retrieval-based
generation. In contrast, ImageRAG leverages the capabilities of existing image
conditioning models, and does not require RAG-specific training. Our approach
is highly adaptable and can be applied across different model types, showing
significant improvement in generating rare and fine-grained concepts using
different base models.
Our project page is available at: https://rotem-shalev.github.io/ImageRAGSummary
AI-Generated Summary