ChatPaper.aiChatPaper

Generazione di Immagini Fattuali con Recupero Multimodale Aperto

Open Multimodal Retrieval-Augmented Factual Image Generation

October 26, 2025
Autori: Yang Tian, Fan Liu, Jingyuan Zhang, Wei Bi, Yupeng Hu, Liqiang Nie
cs.AI

Abstract

I Large Multimodal Model (LMM) hanno compiuto progressi notevoli nella generazione di immagini fotorealistiche e allineate al prompt, ma spesso producono risultati che contraddicono conoscenze verificabili, specialmente quando i prompt coinvolgono attributi di grana fine o eventi sensibili al tempo. I convenzionali approcci retrieval-augmented tentano di affrontare questo problema introducendo informazioni esterne, tuttavia sono intrinsecamente incapaci di ancorare la generazione a conoscenze accurate ed evolventi a causa della loro dipendenza da fonti statiche e da un'integrazione superficiale delle evidenze. Per colmare questa lacuna, introduciamo ORIG, un framework agentico open di retrieval-augmented multimodale per la Generazione di Immagini Factuali (FIG), un nuovo compito che richiede sia realismo visivo che ancoraggio fattuale. ORIG recupera e filtra iterativamente evidenze multimodali dal web e integra incrementalmente la conoscenza raffinata in prompt arricchiti per guidare la generazione. Per supportare una valutazione sistematica, costruiamo FIG-Eval, un benchmark che abbraccia dieci categorie attraverso dimensioni percettive, compositive e temporali. Gli esperimenti dimostrano che ORIG migliora sostanzialmente la consistenza fattuale e la qualità complessiva dell'immagine rispetto a baseline solide, evidenziando il potenziale del retrieval multimodale open per la generazione di immagini fattuali.
English
Large Multimodal Models (LMMs) have achieved remarkable progress in generating photorealistic and prompt-aligned images, but they often produce outputs that contradict verifiable knowledge, especially when prompts involve fine-grained attributes or time-sensitive events. Conventional retrieval-augmented approaches attempt to address this issue by introducing external information, yet they are fundamentally incapable of grounding generation in accurate and evolving knowledge due to their reliance on static sources and shallow evidence integration. To bridge this gap, we introduce ORIG, an agentic open multimodal retrieval-augmented framework for Factual Image Generation (FIG), a new task that requires both visual realism and factual grounding. ORIG iteratively retrieves and filters multimodal evidence from the web and incrementally integrates the refined knowledge into enriched prompts to guide generation. To support systematic evaluation, we build FIG-Eval, a benchmark spanning ten categories across perceptual, compositional, and temporal dimensions. Experiments demonstrate that ORIG substantially improves factual consistency and overall image quality over strong baselines, highlighting the potential of open multimodal retrieval for factual image generation.
PDF301December 3, 2025