Generación Factual de Imágenes con Recuperación Multimodal Abierta
Open Multimodal Retrieval-Augmented Factual Image Generation
October 26, 2025
Autores: Yang Tian, Fan Liu, Jingyuan Zhang, Wei Bi, Yupeng Hu, Liqiang Nie
cs.AI
Resumen
Los Modelos Multimodales Grandes (LMMs) han logrado avances notables en la generación de imágenes fotorrealistas y alineadas con el texto, pero a menudo producen resultados que contradicen el conocimiento verificable, especialmente cuando los textos involucran atributos de grano fino o eventos sensibles al tiempo. Los enfoques convencionales aumentados con recuperación de información intentan abordar este problema introduciendo información externa; sin embargo, son fundamentalmente incapaces de fundamentar la generación en conocimiento preciso y en evolución debido a su dependencia de fuentes estáticas y a una integración superficial de la evidencia. Para cerrar esta brecha, presentamos ORIG, un marco agéntico abierto y multimodal aumentado con recuperación para la Generación de Imágenes Factuales (FIG), una nueva tarea que requiere tanto realismo visual como fundamentación factual. ORIG recupera y filtra evidencia multimodal de la web de manera iterativa e integra incrementalmente el conocimiento refinado en textos enriquecidos para guiar la generación. Para apoyar una evaluación sistemática, construimos FIG-Eval, un punto de referencia que abarca diez categorías a través de dimensiones perceptuales, compositivas y temporales. Los experimentos demuestran que ORIG mejora sustancialmente la consistencia factual y la calidad general de la imagen sobre líneas de base sólidas, destacando el potencial de la recuperación multimodal abierta para la generación de imágenes factuales.
English
Large Multimodal Models (LMMs) have achieved remarkable progress in
generating photorealistic and prompt-aligned images, but they often produce
outputs that contradict verifiable knowledge, especially when prompts involve
fine-grained attributes or time-sensitive events. Conventional
retrieval-augmented approaches attempt to address this issue by introducing
external information, yet they are fundamentally incapable of grounding
generation in accurate and evolving knowledge due to their reliance on static
sources and shallow evidence integration. To bridge this gap, we introduce
ORIG, an agentic open multimodal retrieval-augmented framework for Factual
Image Generation (FIG), a new task that requires both visual realism and
factual grounding. ORIG iteratively retrieves and filters multimodal evidence
from the web and incrementally integrates the refined knowledge into enriched
prompts to guide generation. To support systematic evaluation, we build
FIG-Eval, a benchmark spanning ten categories across perceptual, compositional,
and temporal dimensions. Experiments demonstrate that ORIG substantially
improves factual consistency and overall image quality over strong baselines,
highlighting the potential of open multimodal retrieval for factual image
generation.