Wereld-Naar-Afbeelding: Gronding van Tekst-Naar-Afbeelding Generatie met Agent-Gestuurde Wereldkennis
World-To-Image: Grounding Text-to-Image Generation with Agent-Driven World Knowledge
October 5, 2025
Auteurs: Moo Hyun Son, Jintaek Oh, Sun Bin Mun, Jaechul Roh, Sehyun Choi
cs.AI
Samenvatting
Hoewel tekst-naar-beeld (T2I) modellen hoogwaardige afbeeldingen kunnen genereren, verslechtert hun prestaties aanzienlijk wanneer ze worden aangestuurd met nieuwe of buiten-de-distributie (OOD) entiteiten vanwege inherente kennisbeperkingen. Wij introduceren World-To-Image, een nieuw raamwerk dat deze kloof overbrugt door T2I-generatie te verrijken met agent-gestuurde wereldkennis. We ontwerpen een agent die dynamisch het web doorzoekt om afbeeldingen te vinden voor concepten die onbekend zijn voor het basismodel. Deze informatie wordt vervolgens gebruikt om multimodale promptoptimalisatie uit te voeren, waardoor krachtige generatieve backbones worden gestuurd naar een nauwkeurige synthese. Cruciaal is dat onze evaluatie verder gaat dan traditionele metrieken, door moderne beoordelingen zoals LLMGrader en ImageReward te gebruiken om echte semantische trouw te meten. Onze experimenten tonen aan dat World-To-Image aanzienlijk beter presteert dan state-of-the-art methoden in zowel semantische uitlijning als visuele esthetiek, met een verbetering van +8,1% in nauwkeurigheid-naar-prompt op onze samengestelde NICE-benchmark. Ons raamwerk bereikt deze resultaten met hoge efficiëntie in minder dan drie iteraties, wat de weg vrijmaakt voor T2I-systemen die de voortdurend veranderende echte wereld beter kunnen weerspiegelen. Onze democode is beschikbaar op https://github.com/mhson-kyle/World-To-Image.
English
While text-to-image (T2I) models can synthesize high-quality images, their
performance degrades significantly when prompted with novel or
out-of-distribution (OOD) entities due to inherent knowledge cutoffs. We
introduce World-To-Image, a novel framework that bridges this gap by empowering
T2I generation with agent-driven world knowledge. We design an agent that
dynamically searches the web to retrieve images for concepts unknown to the
base model. This information is then used to perform multimodal prompt
optimization, steering powerful generative backbones toward an accurate
synthesis. Critically, our evaluation goes beyond traditional metrics,
utilizing modern assessments like LLMGrader and ImageReward to measure true
semantic fidelity. Our experiments show that World-To-Image substantially
outperforms state-of-the-art methods in both semantic alignment and visual
aesthetics, achieving +8.1% improvement in accuracy-to-prompt on our curated
NICE benchmark. Our framework achieves these results with high efficiency in
less than three iterations, paving the way for T2I systems that can better
reflect the ever-changing real world. Our demo code is available
herehttps://github.com/mhson-kyle/World-To-Image.