ChatPaper.aiChatPaper

オープン・マルチモーダル検索拡張事実画像生成

Open Multimodal Retrieval-Augmented Factual Image Generation

October 26, 2025
著者: Yang Tian, Fan Liu, Jingyuan Zhang, Wei Bi, Yupeng Hu, Liqiang Nie
cs.AI

要旨

大規模マルチモーダルモデル(LMM)は、写実的でプロンプトに忠実な画像生成において顕著な進歩を遂げているが、特に細粒度の属性や時間的制約のある事象を含むプロンプトにおいて、検証可能な知識と矛盾する出力を生成することが多い。従来の検索拡張アプローチは外部情報の導入によってこの問題に対処しようとするが、静的な情報源と表面的な証統合に依存するため、正確で変化する知識に基づいた生成を根本的に実現できない。この課題を解決するため、我々は事実に基づく画像生成(FIG)という新たなタスクに向けた、エージェンシックでオープンなマルチモーダル検索拡張フレームワーク「ORIG」を提案する。ORIGはウェブからマルチモーダルな証拠を反復的に収集・選別し、精緻化された知識を段階的にプロンプトに統合することで生成を誘導する。体系的評価を可能にするため、知覚的・構成的・時間的次元にわたる10カテゴリからなるベンチマークFIG-Evalを構築した。実験により、ORIGが強力なベースラインを大幅に上回る事実的一貫性と総合的な画質向上を達成することが示され、事実的画像生成におけるオープンなマルチモーダル検索の可能性が明らかとなった。
English
Large Multimodal Models (LMMs) have achieved remarkable progress in generating photorealistic and prompt-aligned images, but they often produce outputs that contradict verifiable knowledge, especially when prompts involve fine-grained attributes or time-sensitive events. Conventional retrieval-augmented approaches attempt to address this issue by introducing external information, yet they are fundamentally incapable of grounding generation in accurate and evolving knowledge due to their reliance on static sources and shallow evidence integration. To bridge this gap, we introduce ORIG, an agentic open multimodal retrieval-augmented framework for Factual Image Generation (FIG), a new task that requires both visual realism and factual grounding. ORIG iteratively retrieves and filters multimodal evidence from the web and incrementally integrates the refined knowledge into enriched prompts to guide generation. To support systematic evaluation, we build FIG-Eval, a benchmark spanning ten categories across perceptual, compositional, and temporal dimensions. Experiments demonstrate that ORIG substantially improves factual consistency and overall image quality over strong baselines, highlighting the potential of open multimodal retrieval for factual image generation.
PDF301December 31, 2025