Geração Factual de Imagens com Recuperação Aumentada Multimodal Aberta
Open Multimodal Retrieval-Augmented Factual Image Generation
October 26, 2025
Autores: Yang Tian, Fan Liu, Jingyuan Zhang, Wei Bi, Yupeng Hu, Liqiang Nie
cs.AI
Resumo
Os Grandes Modelos Multimodais (LMMs) alcançaram progressos notáveis na geração de imagens fotorrealistas e alinhadas com os prompts, mas frequentemente produzem resultados que contradizem conhecimentos verificáveis, especialmente quando os prompts envolvem atributos de granularidade fina ou eventos sensíveis ao tempo. As abordagens convencionais aumentadas por recuperação tentam resolver este problema através da introdução de informações externas, mas são fundamentalmente incapazes de fundamentar a geração em conhecimentos precisos e em evolução devido à sua dependência de fontes estáticas e integração superficial de evidências. Para preencher esta lacuna, introduzimos o ORIG, uma estrutura agentiva aberta e multimodal aumentada por recuperação para Geração Factual de Imagens (FIG), uma nova tarefa que exige tanto realismo visual quanto fundamentação factual. O ORIG recupera e filtra iterativamente evidências multimodais da web e integra incrementalmente o conhecimento refinado em prompts enriquecidos para orientar a geração. Para apoiar uma avaliação sistemática, construímos o FIG-Eval, um benchmark abrangendo dez categorias através de dimensões perceptivas, composicionais e temporais. Os experimentos demonstram que o ORIG melhora substancialmente a consistência factual e a qualidade geral da imagem em relação a baselines robustas, destacando o potencial da recuperação multimodal aberta para a geração factual de imagens.
English
Large Multimodal Models (LMMs) have achieved remarkable progress in
generating photorealistic and prompt-aligned images, but they often produce
outputs that contradict verifiable knowledge, especially when prompts involve
fine-grained attributes or time-sensitive events. Conventional
retrieval-augmented approaches attempt to address this issue by introducing
external information, yet they are fundamentally incapable of grounding
generation in accurate and evolving knowledge due to their reliance on static
sources and shallow evidence integration. To bridge this gap, we introduce
ORIG, an agentic open multimodal retrieval-augmented framework for Factual
Image Generation (FIG), a new task that requires both visual realism and
factual grounding. ORIG iteratively retrieves and filters multimodal evidence
from the web and incrementally integrates the refined knowledge into enriched
prompts to guide generation. To support systematic evaluation, we build
FIG-Eval, a benchmark spanning ten categories across perceptual, compositional,
and temporal dimensions. Experiments demonstrate that ORIG substantially
improves factual consistency and overall image quality over strong baselines,
highlighting the potential of open multimodal retrieval for factual image
generation.