ChatPaper.aiChatPaper

Generación Factual de Imágenes con Recuperación Multimodal Abierta

Open Multimodal Retrieval-Augmented Factual Image Generation

October 26, 2025
Autores: Yang Tian, Fan Liu, Jingyuan Zhang, Wei Bi, Yupeng Hu, Liqiang Nie
cs.AI

Resumen

Los Modelos Multimodales Grandes (LMMs) han logrado avances notables en la generación de imágenes fotorrealistas y alineadas con el texto, pero a menudo producen resultados que contradicen el conocimiento verificable, especialmente cuando los textos involucran atributos de grano fino o eventos sensibles al tiempo. Los enfoques convencionales aumentados con recuperación de información intentan abordar este problema introduciendo información externa; sin embargo, son fundamentalmente incapaces de fundamentar la generación en conocimiento preciso y en evolución debido a su dependencia de fuentes estáticas y a una integración superficial de la evidencia. Para cerrar esta brecha, presentamos ORIG, un marco agéntico abierto y multimodal aumentado con recuperación para la Generación de Imágenes Factuales (FIG), una nueva tarea que requiere tanto realismo visual como fundamentación factual. ORIG recupera y filtra evidencia multimodal de la web de manera iterativa e integra incrementalmente el conocimiento refinado en textos enriquecidos para guiar la generación. Para apoyar una evaluación sistemática, construimos FIG-Eval, un punto de referencia que abarca diez categorías a través de dimensiones perceptuales, compositivas y temporales. Los experimentos demuestran que ORIG mejora sustancialmente la consistencia factual y la calidad general de la imagen sobre líneas de base sólidas, destacando el potencial de la recuperación multimodal abierta para la generación de imágenes factuales.
English
Large Multimodal Models (LMMs) have achieved remarkable progress in generating photorealistic and prompt-aligned images, but they often produce outputs that contradict verifiable knowledge, especially when prompts involve fine-grained attributes or time-sensitive events. Conventional retrieval-augmented approaches attempt to address this issue by introducing external information, yet they are fundamentally incapable of grounding generation in accurate and evolving knowledge due to their reliance on static sources and shallow evidence integration. To bridge this gap, we introduce ORIG, an agentic open multimodal retrieval-augmented framework for Factual Image Generation (FIG), a new task that requires both visual realism and factual grounding. ORIG iteratively retrieves and filters multimodal evidence from the web and incrementally integrates the refined knowledge into enriched prompts to guide generation. To support systematic evaluation, we build FIG-Eval, a benchmark spanning ten categories across perceptual, compositional, and temporal dimensions. Experiments demonstrate that ORIG substantially improves factual consistency and overall image quality over strong baselines, highlighting the potential of open multimodal retrieval for factual image generation.
PDF301December 31, 2025