World-To-Image: Основание генерации изображений из текста с использованием знаний о мире, управляемых агентом
World-To-Image: Grounding Text-to-Image Generation with Agent-Driven World Knowledge
October 5, 2025
Авторы: Moo Hyun Son, Jintaek Oh, Sun Bin Mun, Jaechul Roh, Sehyun Choi
cs.AI
Аннотация
Хотя модели преобразования текста в изображение (Text-to-Image, T2I) способны синтезировать изображения высокого качества, их производительность значительно снижается при работе с новыми или выходящими за пределы распределения (out-of-distribution, OOD) объектами из-за ограничений встроенных знаний. Мы представляем World-To-Image — новую концепцию, которая устраняет этот разрыв, обогащая генерацию T2I знаниями о мире, получаемыми с помощью агентов. Мы разработали агента, который динамически осуществляет поиск в интернете для извлечения изображений концепций, неизвестных базовой модели. Эта информация затем используется для оптимизации мультимодальных запросов, направляя мощные генеративные модели на точный синтез. Важно отметить, что наша оценка выходит за рамки традиционных метрик, используя современные методы, такие как LLMGrader и ImageReward, для измерения истинной семантической точности. Наши эксперименты показывают, что World-To-Image значительно превосходит современные методы как в семантическом соответствии, так и в визуальной эстетике, достигая улучшения точности соответствия запросу на +8,1% на нашем специально разработанном бенчмарке NICE. Наша концепция достигает этих результатов с высокой эффективностью менее чем за три итерации, прокладывая путь для T2I-систем, которые могут лучше отражать постоянно меняющийся реальный мир. Демонстрационный код доступен по ссылке: https://github.com/mhson-kyle/World-To-Image.
English
While text-to-image (T2I) models can synthesize high-quality images, their
performance degrades significantly when prompted with novel or
out-of-distribution (OOD) entities due to inherent knowledge cutoffs. We
introduce World-To-Image, a novel framework that bridges this gap by empowering
T2I generation with agent-driven world knowledge. We design an agent that
dynamically searches the web to retrieve images for concepts unknown to the
base model. This information is then used to perform multimodal prompt
optimization, steering powerful generative backbones toward an accurate
synthesis. Critically, our evaluation goes beyond traditional metrics,
utilizing modern assessments like LLMGrader and ImageReward to measure true
semantic fidelity. Our experiments show that World-To-Image substantially
outperforms state-of-the-art methods in both semantic alignment and visual
aesthetics, achieving +8.1% improvement in accuracy-to-prompt on our curated
NICE benchmark. Our framework achieves these results with high efficiency in
less than three iterations, paving the way for T2I systems that can better
reflect the ever-changing real world. Our demo code is available
herehttps://github.com/mhson-kyle/World-To-Image.