Wereld-Naar-Afbeelding: Gronding van Tekst-Naar-Afbeelding Generatie met Agent-Gestuurde Wereldkennis

Samenvatting

Hoewel tekst-naar-beeld (T2I) modellen hoogwaardige afbeeldingen kunnen genereren, verslechtert hun prestaties aanzienlijk wanneer ze worden aangestuurd met nieuwe of buiten-de-distributie (OOD) entiteiten vanwege inherente kennisbeperkingen. Wij introduceren World-To-Image, een nieuw raamwerk dat deze kloof overbrugt door T2I-generatie te verrijken met agent-gestuurde wereldkennis. We ontwerpen een agent die dynamisch het web doorzoekt om afbeeldingen te vinden voor concepten die onbekend zijn voor het basismodel. Deze informatie wordt vervolgens gebruikt om multimodale promptoptimalisatie uit te voeren, waardoor krachtige generatieve backbones worden gestuurd naar een nauwkeurige synthese. Cruciaal is dat onze evaluatie verder gaat dan traditionele metrieken, door moderne beoordelingen zoals LLMGrader en ImageReward te gebruiken om echte semantische trouw te meten. Onze experimenten tonen aan dat World-To-Image aanzienlijk beter presteert dan state-of-the-art methoden in zowel semantische uitlijning als visuele esthetiek, met een verbetering van +8,1% in nauwkeurigheid-naar-prompt op onze samengestelde NICE-benchmark. Ons raamwerk bereikt deze resultaten met hoge efficiëntie in minder dan drie iteraties, wat de weg vrijmaakt voor T2I-systemen die de voortdurend veranderende echte wereld beter kunnen weerspiegelen. Onze democode is beschikbaar op https://github.com/mhson-kyle/World-To-Image.

English

While text-to-image (T2I) models can synthesize high-quality images, their performance degrades significantly when prompted with novel or out-of-distribution (OOD) entities due to inherent knowledge cutoffs. We introduce World-To-Image, a novel framework that bridges this gap by empowering T2I generation with agent-driven world knowledge. We design an agent that dynamically searches the web to retrieve images for concepts unknown to the base model. This information is then used to perform multimodal prompt optimization, steering powerful generative backbones toward an accurate synthesis. Critically, our evaluation goes beyond traditional metrics, utilizing modern assessments like LLMGrader and ImageReward to measure true semantic fidelity. Our experiments show that World-To-Image substantially outperforms state-of-the-art methods in both semantic alignment and visual aesthetics, achieving +8.1% improvement in accuracy-to-prompt on our curated NICE benchmark. Our framework achieves these results with high efficiency in less than three iterations, paving the way for T2I systems that can better reflect the ever-changing real world. Our demo code is available herehttps://github.com/mhson-kyle/World-To-Image.

Wereld-Naar-Afbeelding: Gronding van Tekst-Naar-Afbeelding Generatie met Agent-Gestuurde Wereldkennis

World-To-Image: Grounding Text-to-Image Generation with Agent-Driven World Knowledge

Samenvatting

Support