Open Multimodale Retrieval-augmented Factueel Beeldgeneratie

Samenvatting

Grote Multimodale Modellen (LMM's) hebben opmerkelijke vooruitgang geboekt in het genereren van fotorealistische en prompt-afgestemde beelden, maar produceren vaak uitvoer die in tegenspraak is met verifieerbare kennis, vooral wanneer prompts fijnmazige attributen of tijdgevoelige gebeurtenissen bevatten. Conventionele, met retrieval-augmented benaderingen proberen dit probleem aan te pakken door externe informatie in te brengen, maar zijn fundamenteel niet in staat om de generatie te grondvesten in accurate en evoluerende kennis vanwege hun afhankelijkheid van statische bronnen en oppervlakkige integratie van bewijs. Om deze kloof te overbruggen, introduceren we ORIG, een agent-gebaseerd open multimodaal retrieval-augmented raamwerk voor Factuele Beeldgeneratie (FIG), een nieuwe taak die zowel visueel realisme als feitelijke onderbouwing vereist. ORIG haalt iteratief multimodaal bewijs op van het web, filtert dit, en integreert de verfijnde kennis stapsgewijs in verrijkte prompts om de generatie te sturen. Om een systematische evaluatie mogelijk te maken, bouwden we FIG-Eval, een benchmark die tien categorieën omspant over perceptuele, compositionele en temporele dimensies. Experimenten tonen aan dat ORIG de feitelijke consistentie en de algehele beeldkwaliteit aanzienlijk verbetert ten opzichte van sterke baseline-methoden, wat het potentieel aantoont van open multimodale retrieval voor feitelijke beeldgeneratie.

English

Large Multimodal Models (LMMs) have achieved remarkable progress in generating photorealistic and prompt-aligned images, but they often produce outputs that contradict verifiable knowledge, especially when prompts involve fine-grained attributes or time-sensitive events. Conventional retrieval-augmented approaches attempt to address this issue by introducing external information, yet they are fundamentally incapable of grounding generation in accurate and evolving knowledge due to their reliance on static sources and shallow evidence integration. To bridge this gap, we introduce ORIG, an agentic open multimodal retrieval-augmented framework for Factual Image Generation (FIG), a new task that requires both visual realism and factual grounding. ORIG iteratively retrieves and filters multimodal evidence from the web and incrementally integrates the refined knowledge into enriched prompts to guide generation. To support systematic evaluation, we build FIG-Eval, a benchmark spanning ten categories across perceptual, compositional, and temporal dimensions. Experiments demonstrate that ORIG substantially improves factual consistency and overall image quality over strong baselines, highlighting the potential of open multimodal retrieval for factual image generation.

Open Multimodale Retrieval-augmented Factueel Beeldgeneratie

Open Multimodal Retrieval-Augmented Factual Image Generation

Samenvatting

Support