Mundo-Para-Imagem: Fundamentando a Geração de Imagens a partir de Texto com Conhecimento do Mundo Orientado por Agentes
World-To-Image: Grounding Text-to-Image Generation with Agent-Driven World Knowledge
October 5, 2025
Autores: Moo Hyun Son, Jintaek Oh, Sun Bin Mun, Jaechul Roh, Sehyun Choi
cs.AI
Resumo
Embora os modelos de texto-para-imagem (T2I) possam sintetizar imagens de alta qualidade, seu desempenho se degrada significativamente quando solicitados com entidades novas ou fora da distribuição (OOD, do inglês "out-of-distribution") devido a limitações inerentes de conhecimento. Apresentamos o World-To-Image, uma nova estrutura que preenche essa lacuna ao capacitar a geração T2I com conhecimento do mundo orientado por agentes. Projetamos um agente que busca dinamicamente na web para recuperar imagens de conceitos desconhecidos pelo modelo base. Essas informações são então usadas para realizar uma otimização multimodal de prompts, direcionando poderosos backbones gerativos para uma síntese precisa. De forma crítica, nossa avaliação vai além das métricas tradicionais, utilizando avaliações modernas como LLMGrader e ImageReward para medir a verdadeira fidelidade semântica. Nossos experimentos mostram que o World-To-Image supera substancialmente os métodos state-of-the-art tanto no alinhamento semântico quanto na estética visual, alcançando uma melhoria de +8,1% na precisão em relação ao prompt em nosso benchmark NICE. Nossa estrutura alcança esses resultados com alta eficiência em menos de três iterações, abrindo caminho para sistemas T2I que podem refletir melhor o mundo real em constante mudança. Nosso código de demonstração está disponível aqui: https://github.com/mhson-kyle/World-To-Image.
English
While text-to-image (T2I) models can synthesize high-quality images, their
performance degrades significantly when prompted with novel or
out-of-distribution (OOD) entities due to inherent knowledge cutoffs. We
introduce World-To-Image, a novel framework that bridges this gap by empowering
T2I generation with agent-driven world knowledge. We design an agent that
dynamically searches the web to retrieve images for concepts unknown to the
base model. This information is then used to perform multimodal prompt
optimization, steering powerful generative backbones toward an accurate
synthesis. Critically, our evaluation goes beyond traditional metrics,
utilizing modern assessments like LLMGrader and ImageReward to measure true
semantic fidelity. Our experiments show that World-To-Image substantially
outperforms state-of-the-art methods in both semantic alignment and visual
aesthetics, achieving +8.1% improvement in accuracy-to-prompt on our curated
NICE benchmark. Our framework achieves these results with high efficiency in
less than three iterations, paving the way for T2I systems that can better
reflect the ever-changing real world. Our demo code is available
herehttps://github.com/mhson-kyle/World-To-Image.