ChatPaper.aiChatPaper

World-To-Image: Verankerung der Text-zu-Bild-Generierung mit agentengesteuertem Weltwissen

World-To-Image: Grounding Text-to-Image Generation with Agent-Driven World Knowledge

October 5, 2025
papers.authors: Moo Hyun Son, Jintaek Oh, Sun Bin Mun, Jaechul Roh, Sehyun Choi
cs.AI

papers.abstract

Während Text-zu-Bild (T2I)-Modelle hochwertige Bilder synthetisieren können, verschlechtert sich ihre Leistung erheblich, wenn sie mit neuartigen oder außerhalb der Verteilung (Out-of-Distribution, OOD) liegenden Entitäten angeregt werden, was auf inhärente Wissensgrenzen zurückzuführen ist. Wir stellen World-To-Image vor, ein neuartiges Framework, das diese Lücke schließt, indem es die T2I-Generierung mit agentengesteuertem Weltwissen erweitert. Wir entwickeln einen Agenten, der dynamisch das Web durchsucht, um Bilder für Konzepte zu finden, die dem Basismodell unbekannt sind. Diese Informationen werden dann verwendet, um eine multimodale Prompt-Optimierung durchzuführen, die leistungsstarke generative Backbones in Richtung einer präzisen Synthese lenkt. Entscheidend ist, dass unsere Bewertung über traditionelle Metriken hinausgeht und moderne Bewertungsmethoden wie LLMGrader und ImageReward nutzt, um die wahre semantische Treue zu messen. Unsere Experimente zeigen, dass World-To-Image state-of-the-art-Methoden sowohl in der semantischen Ausrichtung als auch in der visuellen Ästhetik deutlich übertrifft und eine Verbesserung von +8,1 % in der Genauigkeit zum Prompt auf unserem kuratierten NICE-Benchmark erreicht. Unser Framework erzielt diese Ergebnisse mit hoher Effizienz in weniger als drei Iterationen und ebnet den Weg für T2I-Systeme, die die sich ständig verändernde reale Welt besser widerspiegeln können. Unser Demo-Code ist hier verfügbar: https://github.com/mhson-kyle/World-To-Image.
English
While text-to-image (T2I) models can synthesize high-quality images, their performance degrades significantly when prompted with novel or out-of-distribution (OOD) entities due to inherent knowledge cutoffs. We introduce World-To-Image, a novel framework that bridges this gap by empowering T2I generation with agent-driven world knowledge. We design an agent that dynamically searches the web to retrieve images for concepts unknown to the base model. This information is then used to perform multimodal prompt optimization, steering powerful generative backbones toward an accurate synthesis. Critically, our evaluation goes beyond traditional metrics, utilizing modern assessments like LLMGrader and ImageReward to measure true semantic fidelity. Our experiments show that World-To-Image substantially outperforms state-of-the-art methods in both semantic alignment and visual aesthetics, achieving +8.1% improvement in accuracy-to-prompt on our curated NICE benchmark. Our framework achieves these results with high efficiency in less than three iterations, paving the way for T2I systems that can better reflect the ever-changing real world. Our demo code is available herehttps://github.com/mhson-kyle/World-To-Image.
PDF42October 14, 2025