World-To-Image: Основание генерации изображений из текста с использованием знаний о мире, управляемых агентом

Аннотация

Хотя модели преобразования текста в изображение (Text-to-Image, T2I) способны синтезировать изображения высокого качества, их производительность значительно снижается при работе с новыми или выходящими за пределы распределения (out-of-distribution, OOD) объектами из-за ограничений встроенных знаний. Мы представляем World-To-Image — новую концепцию, которая устраняет этот разрыв, обогащая генерацию T2I знаниями о мире, получаемыми с помощью агентов. Мы разработали агента, который динамически осуществляет поиск в интернете для извлечения изображений концепций, неизвестных базовой модели. Эта информация затем используется для оптимизации мультимодальных запросов, направляя мощные генеративные модели на точный синтез. Важно отметить, что наша оценка выходит за рамки традиционных метрик, используя современные методы, такие как LLMGrader и ImageReward, для измерения истинной семантической точности. Наши эксперименты показывают, что World-To-Image значительно превосходит современные методы как в семантическом соответствии, так и в визуальной эстетике, достигая улучшения точности соответствия запросу на +8,1% на нашем специально разработанном бенчмарке NICE. Наша концепция достигает этих результатов с высокой эффективностью менее чем за три итерации, прокладывая путь для T2I-систем, которые могут лучше отражать постоянно меняющийся реальный мир. Демонстрационный код доступен по ссылке: https://github.com/mhson-kyle/World-To-Image.

English

While text-to-image (T2I) models can synthesize high-quality images, their performance degrades significantly when prompted with novel or out-of-distribution (OOD) entities due to inherent knowledge cutoffs. We introduce World-To-Image, a novel framework that bridges this gap by empowering T2I generation with agent-driven world knowledge. We design an agent that dynamically searches the web to retrieve images for concepts unknown to the base model. This information is then used to perform multimodal prompt optimization, steering powerful generative backbones toward an accurate synthesis. Critically, our evaluation goes beyond traditional metrics, utilizing modern assessments like LLMGrader and ImageReward to measure true semantic fidelity. Our experiments show that World-To-Image substantially outperforms state-of-the-art methods in both semantic alignment and visual aesthetics, achieving +8.1% improvement in accuracy-to-prompt on our curated NICE benchmark. Our framework achieves these results with high efficiency in less than three iterations, paving the way for T2I systems that can better reflect the ever-changing real world. Our demo code is available herehttps://github.com/mhson-kyle/World-To-Image.

World-To-Image: Основание генерации изображений из текста с использованием знаний о мире, управляемых агентом

World-To-Image: Grounding Text-to-Image Generation with Agent-Driven World Knowledge

Аннотация

Support