Génération d'Images Factuelles par Augmentation avec Rétroaction Multimodale Ouverte

papers.abstract

Les grands modèles multimodaux (LMM) ont réalisé des progrès remarquables dans la génération d'images photoréalistes et alignées avec les prompts, mais ils produisent souvent des résultats qui contredisent des connaissances vérifiables, en particulier lorsque les prompts impliquent des attributs à granularité fine ou des événements sensibles au facteur temps. Les approches conventionnelles augmentées par recherche tentent de résoudre ce problème en introduisant des informations externes, mais elles sont fondamentalement incapables d'ancrer la génération dans des connaissances précises et évolutives en raison de leur dépendance à des sources statiques et d'une intégration superficielle des preuves. Pour combler cette lacune, nous présentons ORIG, un cadre agentique ouvert et multimodal augmenté par recherche pour la Génération d'Images Factuelles (FIG), une nouvelle tâche qui exige à la fois un réalisme visuel et un ancrage factuel. ORIG récupère et filtre itérativement des preuves multimodales depuis le web et intègre progressivement les connaissances raffinées dans des prompts enrichis pour guider la génération. Pour permettre une évaluation systématique, nous construisons FIG-Eval, un benchmark couvrant dix catégories à travers des dimensions perceptuelles, compositionnelles et temporelles. Les expériences démontrent qu'ORIG améliore substantiellement la cohérence factuelle et la qualité globale de l'image par rapport à des bases de référence solides, soulignant le potentiel de la recherche multimodale ouverte pour la génération d'images factuelles.

English

Large Multimodal Models (LMMs) have achieved remarkable progress in generating photorealistic and prompt-aligned images, but they often produce outputs that contradict verifiable knowledge, especially when prompts involve fine-grained attributes or time-sensitive events. Conventional retrieval-augmented approaches attempt to address this issue by introducing external information, yet they are fundamentally incapable of grounding generation in accurate and evolving knowledge due to their reliance on static sources and shallow evidence integration. To bridge this gap, we introduce ORIG, an agentic open multimodal retrieval-augmented framework for Factual Image Generation (FIG), a new task that requires both visual realism and factual grounding. ORIG iteratively retrieves and filters multimodal evidence from the web and incrementally integrates the refined knowledge into enriched prompts to guide generation. To support systematic evaluation, we build FIG-Eval, a benchmark spanning ten categories across perceptual, compositional, and temporal dimensions. Experiments demonstrate that ORIG substantially improves factual consistency and overall image quality over strong baselines, highlighting the potential of open multimodal retrieval for factual image generation.

Génération d'Images Factuelles par Augmentation avec Rétroaction Multimodale Ouverte

Open Multimodal Retrieval-Augmented Factual Image Generation

papers.abstract

Support