ChatPaper.aiChatPaper

Monde-À-Image : Ancrage de la génération texte-à-image avec des connaissances mondiales pilotées par des agents

World-To-Image: Grounding Text-to-Image Generation with Agent-Driven World Knowledge

October 5, 2025
papers.authors: Moo Hyun Son, Jintaek Oh, Sun Bin Mun, Jaechul Roh, Sehyun Choi
cs.AI

papers.abstract

Bien que les modèles de génération d'images à partir de texte (T2I) puissent synthétiser des images de haute qualité, leurs performances se dégradent considérablement lorsqu'ils sont sollicités avec des entités nouvelles ou hors distribution (OOD) en raison de limites inhérentes à leurs connaissances. Nous présentons World-To-Image, un cadre novateur qui comble cette lacune en enrichissant la génération T2I avec des connaissances mondiales pilotées par un agent. Nous concevons un agent qui recherche dynamiquement sur le web pour récupérer des images correspondant à des concepts inconnus du modèle de base. Ces informations sont ensuite utilisées pour optimiser les prompts multimodaux, guidant les puissants modèles génératifs vers une synthèse précise. De manière cruciale, notre évaluation va au-delà des métriques traditionnelles, en utilisant des évaluations modernes comme LLMGrader et ImageReward pour mesurer la véritable fidélité sémantique. Nos expériences montrent que World-To-Image surpasse significativement les méthodes de pointe à la fois en alignement sémantique et en esthétique visuelle, avec une amélioration de +8,1 % en précision par rapport au prompt sur notre benchmark NICE. Notre cadre atteint ces résultats avec une grande efficacité en moins de trois itérations, ouvrant la voie à des systèmes T2I capables de mieux refléter le monde réel en constante évolution. Notre code de démonstration est disponible ici : https://github.com/mhson-kyle/World-To-Image.
English
While text-to-image (T2I) models can synthesize high-quality images, their performance degrades significantly when prompted with novel or out-of-distribution (OOD) entities due to inherent knowledge cutoffs. We introduce World-To-Image, a novel framework that bridges this gap by empowering T2I generation with agent-driven world knowledge. We design an agent that dynamically searches the web to retrieve images for concepts unknown to the base model. This information is then used to perform multimodal prompt optimization, steering powerful generative backbones toward an accurate synthesis. Critically, our evaluation goes beyond traditional metrics, utilizing modern assessments like LLMGrader and ImageReward to measure true semantic fidelity. Our experiments show that World-To-Image substantially outperforms state-of-the-art methods in both semantic alignment and visual aesthetics, achieving +8.1% improvement in accuracy-to-prompt on our curated NICE benchmark. Our framework achieves these results with high efficiency in less than three iterations, paving the way for T2I systems that can better reflect the ever-changing real world. Our demo code is available herehttps://github.com/mhson-kyle/World-To-Image.
PDF42October 14, 2025