ChatPaper.aiChatPaper

World-To-Image: Fondare la Generazione di Immagini da Testo con Conoscenza del Mondo Guidata da Agenti

World-To-Image: Grounding Text-to-Image Generation with Agent-Driven World Knowledge

October 5, 2025
Autori: Moo Hyun Son, Jintaek Oh, Sun Bin Mun, Jaechul Roh, Sehyun Choi
cs.AI

Abstract

Sebbene i modelli di testo-immagine (T2I) siano in grado di sintetizzare immagini di alta qualità, le loro prestazioni si degradano significativamente quando vengono sollecitati con entità nuove o fuori distribuzione (OOD) a causa di limiti intrinseci nella conoscenza. Introduciamo World-To-Image, un nuovo framework che colma questa lacuna potenziando la generazione T2I con conoscenza del mondo guidata da agenti. Progettiamo un agente che ricerca dinamicamente sul web per recuperare immagini relative a concetti sconosciuti al modello di base. Queste informazioni vengono poi utilizzate per ottimizzare il prompt multimodale, indirizzando potenti backbone generative verso una sintesi accurata. In modo cruciale, la nostra valutazione va oltre le metriche tradizionali, utilizzando valutazioni moderne come LLMGrader e ImageReward per misurare la vera fedeltà semantica. I nostri esperimenti dimostrano che World-To-Image supera significativamente i metodi all'avanguardia sia nell'allineamento semantico che nell'estetica visiva, ottenendo un miglioramento dell'8,1% nell'accuratezza rispetto al prompt sul nostro benchmark curato NICE. Il nostro framework raggiunge questi risultati con alta efficienza in meno di tre iterazioni, aprendo la strada a sistemi T2I che possono riflettere meglio il mondo reale in continua evoluzione. Il nostro codice demo è disponibile qui https://github.com/mhson-kyle/World-To-Image.
English
While text-to-image (T2I) models can synthesize high-quality images, their performance degrades significantly when prompted with novel or out-of-distribution (OOD) entities due to inherent knowledge cutoffs. We introduce World-To-Image, a novel framework that bridges this gap by empowering T2I generation with agent-driven world knowledge. We design an agent that dynamically searches the web to retrieve images for concepts unknown to the base model. This information is then used to perform multimodal prompt optimization, steering powerful generative backbones toward an accurate synthesis. Critically, our evaluation goes beyond traditional metrics, utilizing modern assessments like LLMGrader and ImageReward to measure true semantic fidelity. Our experiments show that World-To-Image substantially outperforms state-of-the-art methods in both semantic alignment and visual aesthetics, achieving +8.1% improvement in accuracy-to-prompt on our curated NICE benchmark. Our framework achieves these results with high efficiency in less than three iterations, paving the way for T2I systems that can better reflect the ever-changing real world. Our demo code is available herehttps://github.com/mhson-kyle/World-To-Image.
PDF42October 14, 2025