Открытая мультимодальная генерация фактографических изображений с расширенным поиском
Open Multimodal Retrieval-Augmented Factual Image Generation
October 26, 2025
Авторы: Yang Tian, Fan Liu, Jingyuan Zhang, Wei Bi, Yupeng Hu, Liqiang Nie
cs.AI
Аннотация
Крупные мультимодальные модели (LMM) достигли значительного прогресса в генерации фотореалистичных изображений, соответствующих запросам, однако они часто выдают результаты, противоречащие проверяемым знаниям, особенно когда промпты содержат тонкие атрибуты или события, зависящие от временного контекста. Традиционные подходы с расширением на основе поиска пытаются решить эту проблему за счет привлечения внешней информации, но они принципиально неспособны обосновать генерацию точными и развивающимися знаниями из-за зависимости от статических источников и поверхностной интеграции свидетельств. Для преодоления этого разрыва мы представляем ORIG — агентную открытую мультимодальную систему с расширением на основе поиска для фактологической генерации изображений (Factual Image Generation, FIG) — новой задачи, требующей как визуального реализма, так и фактической обоснованности. ORIG итеративно извлекает и фильтрует мультимодальные свидетельства из сети и постепенно интегрирует уточненные знания в обогащенные промпты для управления генерацией. Для систематической оценки мы создали FIG-Eval — benchmark, охватывающий десять категорий по перцептивным, композиционным и временным измерениям. Эксперименты показывают, что ORIG существенно улучшает фактическую согласованность и общее качество изображений по сравнению с сильными базовыми методами, подчеркивая потенциал открытого мультимодального поиска для фактологической генерации изображений.
English
Large Multimodal Models (LMMs) have achieved remarkable progress in
generating photorealistic and prompt-aligned images, but they often produce
outputs that contradict verifiable knowledge, especially when prompts involve
fine-grained attributes or time-sensitive events. Conventional
retrieval-augmented approaches attempt to address this issue by introducing
external information, yet they are fundamentally incapable of grounding
generation in accurate and evolving knowledge due to their reliance on static
sources and shallow evidence integration. To bridge this gap, we introduce
ORIG, an agentic open multimodal retrieval-augmented framework for Factual
Image Generation (FIG), a new task that requires both visual realism and
factual grounding. ORIG iteratively retrieves and filters multimodal evidence
from the web and incrementally integrates the refined knowledge into enriched
prompts to guide generation. To support systematic evaluation, we build
FIG-Eval, a benchmark spanning ten categories across perceptual, compositional,
and temporal dimensions. Experiments demonstrate that ORIG substantially
improves factual consistency and overall image quality over strong baselines,
highlighting the potential of open multimodal retrieval for factual image
generation.