Geração Factual de Imagens com Recuperação Aumentada Multimodal Aberta

Resumo

Os Grandes Modelos Multimodais (LMMs) alcançaram progressos notáveis na geração de imagens fotorrealistas e alinhadas com os prompts, mas frequentemente produzem resultados que contradizem conhecimentos verificáveis, especialmente quando os prompts envolvem atributos de granularidade fina ou eventos sensíveis ao tempo. As abordagens convencionais aumentadas por recuperação tentam resolver este problema através da introdução de informações externas, mas são fundamentalmente incapazes de fundamentar a geração em conhecimentos precisos e em evolução devido à sua dependência de fontes estáticas e integração superficial de evidências. Para preencher esta lacuna, introduzimos o ORIG, uma estrutura agentiva aberta e multimodal aumentada por recuperação para Geração Factual de Imagens (FIG), uma nova tarefa que exige tanto realismo visual quanto fundamentação factual. O ORIG recupera e filtra iterativamente evidências multimodais da web e integra incrementalmente o conhecimento refinado em prompts enriquecidos para orientar a geração. Para apoiar uma avaliação sistemática, construímos o FIG-Eval, um benchmark abrangendo dez categorias através de dimensões perceptivas, composicionais e temporais. Os experimentos demonstram que o ORIG melhora substancialmente a consistência factual e a qualidade geral da imagem em relação a baselines robustas, destacando o potencial da recuperação multimodal aberta para a geração factual de imagens.

English

Large Multimodal Models (LMMs) have achieved remarkable progress in generating photorealistic and prompt-aligned images, but they often produce outputs that contradict verifiable knowledge, especially when prompts involve fine-grained attributes or time-sensitive events. Conventional retrieval-augmented approaches attempt to address this issue by introducing external information, yet they are fundamentally incapable of grounding generation in accurate and evolving knowledge due to their reliance on static sources and shallow evidence integration. To bridge this gap, we introduce ORIG, an agentic open multimodal retrieval-augmented framework for Factual Image Generation (FIG), a new task that requires both visual realism and factual grounding. ORIG iteratively retrieves and filters multimodal evidence from the web and incrementally integrates the refined knowledge into enriched prompts to guide generation. To support systematic evaluation, we build FIG-Eval, a benchmark spanning ten categories across perceptual, compositional, and temporal dimensions. Experiments demonstrate that ORIG substantially improves factual consistency and overall image quality over strong baselines, highlighting the potential of open multimodal retrieval for factual image generation.

Geração Factual de Imagens com Recuperação Aumentada Multimodal Aberta

Open Multimodal Retrieval-Augmented Factual Image Generation

Resumo

Support