ImageRAG:参照誘導型画像生成のための動的画像検索
ImageRAG: Dynamic Image Retrieval for Reference-Guided Image Generation
February 13, 2025
著者: Rotem Shalev-Arkushin, Rinon Gal, Amit H. Bermano, Ohad Fried
cs.AI
要旨
拡散モデルは高品質で多様な視覚コンテンツの合成を可能にします。しかし、稀な概念や未見の概念の生成には苦戦しています。この課題に対処するため、我々は画像生成モデルにおける検索拡張生成(Retrieval-Augmented Generation, RAG)の活用を探求します。我々はImageRAGを提案します。これは、与えられたテキストプロンプトに基づいて関連する画像を動的に検索し、それらを生成プロセスのガイドとして使用する手法です。検索された画像を用いて生成を改善する従来のアプローチでは、検索ベースの生成に特化したモデルを訓練していました。これに対して、ImageRAGは既存の画像条件付けモデルの能力を活用し、RAG固有の訓練を必要としません。我々のアプローチは高い適応性を持ち、異なるモデルタイプに適用可能であり、異なるベースモデルを使用して稀で細かい概念の生成において大幅な改善を示します。
プロジェクトページはこちらです: https://rotem-shalev.github.io/ImageRAG
English
Diffusion models enable high-quality and diverse visual content synthesis.
However, they struggle to generate rare or unseen concepts. To address this
challenge, we explore the usage of Retrieval-Augmented Generation (RAG) with
image generation models. We propose ImageRAG, a method that dynamically
retrieves relevant images based on a given text prompt, and uses them as
context to guide the generation process. Prior approaches that used retrieved
images to improve generation, trained models specifically for retrieval-based
generation. In contrast, ImageRAG leverages the capabilities of existing image
conditioning models, and does not require RAG-specific training. Our approach
is highly adaptable and can be applied across different model types, showing
significant improvement in generating rare and fine-grained concepts using
different base models.
Our project page is available at: https://rotem-shalev.github.io/ImageRAGSummary
AI-Generated Summary