다중 모드 검색 증강 사실적 이미지 생성
Open Multimodal Retrieval-Augmented Factual Image Generation
October 26, 2025
저자: Yang Tian, Fan Liu, Jingyuan Zhang, Wei Bi, Yupeng Hu, Liqiang Nie
cs.AI
초록
대규모 멀티모달 모델(LMM)은 사실적인 화질과 프롬프트 정렬을 갖춘 이미지 생성에서 놀라운 진전을 보였으나, 특히 세부 속성이나 시의성 있는 사건을 다루는 프롬프트에서 검증 가능한 지식과 모순되는 결과를 생성하는 경우가 많습니다. 기존의 검색 증강 접근법은 외부 정보 도입을 통해 이 문제를 해결하려 시도하지만, 정적 출처와 피상적 증거 통합에 의존하기 때문에 정확하고 변화하는 지식에 기반한 생성의 근거를 마련하는 데 근본적 한계가 있습니다. 이러한 격차를 해소하기 위해 우리는 시각적 사실성과 사실적 근거성을 모두 요구하는 새로운 과제인 사실적 이미지 생성(FIG)을 위한 에이전트 기반 오픈 멀티모달 검색 증강 프레임워크인 ORIG를 제안합니다. ORIG는 웹에서 멀티모달 증거를 반복적으로 검색 및 필터링하고 정제된 지식을 점진적으로 통합하여 풍부한 프롬프트를 구성함으로써 생성을 유도합니다. 체계적인 평가를 위해 우리는 지각, 구성, 시간 차원에 걸친 10개 범주로 구성된 벤치마크 FIG-Eval을 구축했습니다. 실험 결과, ORIG는 강력한 베이스라인 대비 사실적 일관성과 전반적인 이미지 품질을 현저히 향상시켜 사실적 이미지 생성을 위한 오픈 멀티모달 검색의 잠재력을 입증했습니다.
English
Large Multimodal Models (LMMs) have achieved remarkable progress in
generating photorealistic and prompt-aligned images, but they often produce
outputs that contradict verifiable knowledge, especially when prompts involve
fine-grained attributes or time-sensitive events. Conventional
retrieval-augmented approaches attempt to address this issue by introducing
external information, yet they are fundamentally incapable of grounding
generation in accurate and evolving knowledge due to their reliance on static
sources and shallow evidence integration. To bridge this gap, we introduce
ORIG, an agentic open multimodal retrieval-augmented framework for Factual
Image Generation (FIG), a new task that requires both visual realism and
factual grounding. ORIG iteratively retrieves and filters multimodal evidence
from the web and incrementally integrates the refined knowledge into enriched
prompts to guide generation. To support systematic evaluation, we build
FIG-Eval, a benchmark spanning ten categories across perceptual, compositional,
and temporal dimensions. Experiments demonstrate that ORIG substantially
improves factual consistency and overall image quality over strong baselines,
highlighting the potential of open multimodal retrieval for factual image
generation.