월드-투-이미지: 에이전트 주도 세계 지식을 활용한 텍스트-투-이미지 생성의 기반 구축
World-To-Image: Grounding Text-to-Image Generation with Agent-Driven World Knowledge
October 5, 2025
저자: Moo Hyun Son, Jintaek Oh, Sun Bin Mun, Jaechul Roh, Sehyun Choi
cs.AI
초록
텍스트-이미지(T2I) 모델은 고품질의 이미지를 합성할 수 있지만, 내재된 지식의 한계로 인해 새로운 또는 분포 외(OOD) 개체를 프롬프트로 사용할 경우 성능이 크게 저하된다. 본 연구에서는 에이전트 기반의 세계 지식을 활용하여 T2I 생성의 격차를 해소하는 새로운 프레임워크인 World-To-Image를 소개한다. 우리는 기본 모델이 알지 못하는 개념에 대해 웹을 동적으로 검색하여 이미지를 검색하는 에이전트를 설계했다. 이 정보는 다중 모드 프롬프트 최적화를 수행하는 데 사용되며, 강력한 생성 백본을 정확한 합성으로 유도한다. 특히, 우리의 평가는 전통적인 지표를 넘어 LLMGrader 및 ImageReward와 같은 현대적인 평가 방법을 활용하여 진정한 의미적 충실도를 측정한다. 실험 결과, World-To-Image는 의미적 정렬과 시각적 미학 모두에서 최신 방법을 크게 능가하며, 우리가 선별한 NICE 벤치마크에서 프롬프트 대비 정확도가 +8.1% 향상되었다. 우리의 프레임워크는 3회 미만의 반복으로 높은 효율성을 달성하며, 끊임없이 변화하는 현실 세계를 더 잘 반영할 수 있는 T2I 시스템의 길을 열어준다. 데모 코드는 https://github.com/mhson-kyle/World-To-Image에서 확인할 수 있다.
English
While text-to-image (T2I) models can synthesize high-quality images, their
performance degrades significantly when prompted with novel or
out-of-distribution (OOD) entities due to inherent knowledge cutoffs. We
introduce World-To-Image, a novel framework that bridges this gap by empowering
T2I generation with agent-driven world knowledge. We design an agent that
dynamically searches the web to retrieve images for concepts unknown to the
base model. This information is then used to perform multimodal prompt
optimization, steering powerful generative backbones toward an accurate
synthesis. Critically, our evaluation goes beyond traditional metrics,
utilizing modern assessments like LLMGrader and ImageReward to measure true
semantic fidelity. Our experiments show that World-To-Image substantially
outperforms state-of-the-art methods in both semantic alignment and visual
aesthetics, achieving +8.1% improvement in accuracy-to-prompt on our curated
NICE benchmark. Our framework achieves these results with high efficiency in
less than three iterations, paving the way for T2I systems that can better
reflect the ever-changing real world. Our demo code is available
herehttps://github.com/mhson-kyle/World-To-Image.