Offene multimodale abrufverstärkte faktische Bildgenerierung

papers.abstract

Große Multimodale Modelle (LMMs) haben bemerkenswerte Fortschritte bei der Erzeugung fotorealistischer und promptkonformer Bilder erzielt, produzieren jedoch häufig Ausgaben, die überprüfbarem Wissen widersprechen, insbesondere wenn Prompts feinkörnige Attribute oder zeitkritische Ereignisse betreffen. Konventionelle retrieval-augmentierte Ansätze versuchen, dieses Problem durch die Einführung externer Informationen zu lösen, sind jedoch grundsätzlich nicht in der Lage, die Generierung auf akkuratem und sich entwickelndem Wissen zu verankern, da sie auf statischen Quellen und flacher Evidenzintegration beruhen. Um diese Lücke zu schließen, stellen wir ORIG vor, einen agentenbasierten, offenen multimodalen retrieval-augmentierten Rahmen für Faktische Bildgenerierung (FIG), eine neue Aufgabe, die sowohl visuelle Realität als auch faktische Verankerung erfordert. ORIG ruft multimodale Evidenz iterativ aus dem Web ab, filtert sie und integriert das verfeinerte Wissen schrittweise in angereicherte Prompts, um die Generierung zu steuern. Zur systematischen Evaluation entwickeln wir FIG-Eval, einen Benchmark, der zehn Kategorien über perzeptive, kompositionelle und temporale Dimensionen hinweg abdeckt. Experimente zeigen, dass ORIG die faktische Konsistenz und die gesamte Bildqualität im Vergleich zu starken Baselines erheblich verbessert und damit das Potenzial des offenen multimodalen Retrievals für die faktische Bildgenerierung unterstreicht.

English

Large Multimodal Models (LMMs) have achieved remarkable progress in generating photorealistic and prompt-aligned images, but they often produce outputs that contradict verifiable knowledge, especially when prompts involve fine-grained attributes or time-sensitive events. Conventional retrieval-augmented approaches attempt to address this issue by introducing external information, yet they are fundamentally incapable of grounding generation in accurate and evolving knowledge due to their reliance on static sources and shallow evidence integration. To bridge this gap, we introduce ORIG, an agentic open multimodal retrieval-augmented framework for Factual Image Generation (FIG), a new task that requires both visual realism and factual grounding. ORIG iteratively retrieves and filters multimodal evidence from the web and incrementally integrates the refined knowledge into enriched prompts to guide generation. To support systematic evaluation, we build FIG-Eval, a benchmark spanning ten categories across perceptual, compositional, and temporal dimensions. Experiments demonstrate that ORIG substantially improves factual consistency and overall image quality over strong baselines, highlighting the potential of open multimodal retrieval for factual image generation.

Offene multimodale abrufverstärkte faktische Bildgenerierung

Open Multimodal Retrieval-Augmented Factual Image Generation

papers.abstract

Support