Mundo-a-Imagen: Fundamentando la Generación de Texto-a-Imagen con Conocimiento del Mundo Impulsado por Agentes
World-To-Image: Grounding Text-to-Image Generation with Agent-Driven World Knowledge
October 5, 2025
Autores: Moo Hyun Son, Jintaek Oh, Sun Bin Mun, Jaechul Roh, Sehyun Choi
cs.AI
Resumen
Si bien los modelos de texto a imagen (T2I) pueden sintetizar imágenes de alta calidad, su rendimiento se degrada significativamente cuando se les solicita con entidades novedosas o fuera de distribución (OOD) debido a los límites inherentes de conocimiento. Presentamos World-To-Image, un marco novedoso que cierra esta brecha al potenciar la generación T2I con conocimiento del mundo impulsado por agentes. Diseñamos un agente que busca dinámicamente en la web para recuperar imágenes de conceptos desconocidos para el modelo base. Esta información se utiliza luego para realizar una optimización multimodal de la indicación, guiando a potentes motores generativos hacia una síntesis precisa. Críticamente, nuestra evaluación va más allá de las métricas tradicionales, utilizando evaluaciones modernas como LLMGrader e ImageReward para medir la verdadera fidelidad semántica. Nuestros experimentos muestran que World-To-Image supera sustancialmente a los métodos más avanzados tanto en alineación semántica como en estética visual, logrando una mejora del +8.1% en precisión respecto a la indicación en nuestro benchmark NICE. Nuestro marco alcanza estos resultados con alta eficiencia en menos de tres iteraciones, allanando el camino para sistemas T2I que puedan reflejar mejor el mundo real en constante cambio. Nuestro código de demostración está disponible aquí https://github.com/mhson-kyle/World-To-Image.
English
While text-to-image (T2I) models can synthesize high-quality images, their
performance degrades significantly when prompted with novel or
out-of-distribution (OOD) entities due to inherent knowledge cutoffs. We
introduce World-To-Image, a novel framework that bridges this gap by empowering
T2I generation with agent-driven world knowledge. We design an agent that
dynamically searches the web to retrieve images for concepts unknown to the
base model. This information is then used to perform multimodal prompt
optimization, steering powerful generative backbones toward an accurate
synthesis. Critically, our evaluation goes beyond traditional metrics,
utilizing modern assessments like LLMGrader and ImageReward to measure true
semantic fidelity. Our experiments show that World-To-Image substantially
outperforms state-of-the-art methods in both semantic alignment and visual
aesthetics, achieving +8.1% improvement in accuracy-to-prompt on our curated
NICE benchmark. Our framework achieves these results with high efficiency in
less than three iterations, paving the way for T2I systems that can better
reflect the ever-changing real world. Our demo code is available
herehttps://github.com/mhson-kyle/World-To-Image.