Offene multimodale abrufverstärkte faktische Bildgenerierung
Open Multimodal Retrieval-Augmented Factual Image Generation
October 26, 2025
papers.authors: Yang Tian, Fan Liu, Jingyuan Zhang, Wei Bi, Yupeng Hu, Liqiang Nie
cs.AI
papers.abstract
Große Multimodale Modelle (LMMs) haben bemerkenswerte Fortschritte bei der Erzeugung fotorealistischer und promptkonformer Bilder erzielt, produzieren jedoch häufig Ausgaben, die überprüfbarem Wissen widersprechen, insbesondere wenn Prompts feinkörnige Attribute oder zeitkritische Ereignisse betreffen. Konventionelle retrieval-augmentierte Ansätze versuchen, dieses Problem durch die Einführung externer Informationen zu lösen, sind jedoch grundsätzlich nicht in der Lage, die Generierung auf akkuratem und sich entwickelndem Wissen zu verankern, da sie auf statischen Quellen und flacher Evidenzintegration beruhen. Um diese Lücke zu schließen, stellen wir ORIG vor, einen agentenbasierten, offenen multimodalen retrieval-augmentierten Rahmen für Faktische Bildgenerierung (FIG), eine neue Aufgabe, die sowohl visuelle Realität als auch faktische Verankerung erfordert. ORIG ruft multimodale Evidenz iterativ aus dem Web ab, filtert sie und integriert das verfeinerte Wissen schrittweise in angereicherte Prompts, um die Generierung zu steuern. Zur systematischen Evaluation entwickeln wir FIG-Eval, einen Benchmark, der zehn Kategorien über perzeptive, kompositionelle und temporale Dimensionen hinweg abdeckt. Experimente zeigen, dass ORIG die faktische Konsistenz und die gesamte Bildqualität im Vergleich zu starken Baselines erheblich verbessert und damit das Potenzial des offenen multimodalen Retrievals für die faktische Bildgenerierung unterstreicht.
English
Large Multimodal Models (LMMs) have achieved remarkable progress in
generating photorealistic and prompt-aligned images, but they often produce
outputs that contradict verifiable knowledge, especially when prompts involve
fine-grained attributes or time-sensitive events. Conventional
retrieval-augmented approaches attempt to address this issue by introducing
external information, yet they are fundamentally incapable of grounding
generation in accurate and evolving knowledge due to their reliance on static
sources and shallow evidence integration. To bridge this gap, we introduce
ORIG, an agentic open multimodal retrieval-augmented framework for Factual
Image Generation (FIG), a new task that requires both visual realism and
factual grounding. ORIG iteratively retrieves and filters multimodal evidence
from the web and incrementally integrates the refined knowledge into enriched
prompts to guide generation. To support systematic evaluation, we build
FIG-Eval, a benchmark spanning ten categories across perceptual, compositional,
and temporal dimensions. Experiments demonstrate that ORIG substantially
improves factual consistency and overall image quality over strong baselines,
highlighting the potential of open multimodal retrieval for factual image
generation.