IA-T2I: Интернет-усиленная генерация изображений по тексту
IA-T2I: Internet-Augmented Text-to-Image Generation
May 21, 2025
Авторы: Chuanhao Li, Jianwen Sun, Yukang Feng, Mingliang Zhai, Yifan Chang, Kaipeng Zhang
cs.AI
Аннотация
Современные модели генерации изображений по текстовым описаниям (Text-to-Image, T2I) демонстрируют впечатляющие результаты, однако они сталкиваются с трудностями в сценариях, где знания, подразумеваемые в текстовом запросе, являются неопределёнными. Например, модель T2I, выпущенная в феврале, не сможет создать подходящий постер для фильма, премьера которого состоится в апреле, поскольку дизайн персонажей и стили остаются неизвестными для модели. Для решения этой проблемы мы предлагаем фреймворк Internet-Augmented Text-to-Image Generation (IA-T2I), который позволяет моделям T2I уточнять такие неопределённые знания, предоставляя им эталонные изображения. В частности, разработан активный модуль поиска, который определяет, требуется ли эталонное изображение на основе заданного текстового запроса; введён иерархический модуль выбора изображений для поиска наиболее подходящего изображения, возвращаемого поисковой системой, чтобы улучшить работу модели T2I; предложен механизм саморефлексии, который непрерывно оценивает и уточняет сгенерированное изображение, чтобы обеспечить его точное соответствие текстовому запросу. Для оценки производительности предложенного фреймворка мы собрали набор данных Img-Ref-T2I, где текстовые запросы включают три типа неопределённых знаний: (1) известные, но редкие; (2) неизвестные; (3) неоднозначные. Кроме того, мы тщательно разработали сложный запрос для GPT-4o, чтобы провести оценку предпочтений, которая показала точность, сопоставимую с оценкой предпочтений человеком. Результаты экспериментов подтверждают эффективность нашего фреймворка, превосходящего GPT-4o примерно на 30% в оценке человеком.
English
Current text-to-image (T2I) generation models achieve promising results, but
they fail on the scenarios where the knowledge implied in the text prompt is
uncertain. For example, a T2I model released in February would struggle to
generate a suitable poster for a movie premiering in April, because the
character designs and styles are uncertain to the model. To solve this problem,
we propose an Internet-Augmented text-to-image generation (IA-T2I) framework to
compel T2I models clear about such uncertain knowledge by providing them with
reference images. Specifically, an active retrieval module is designed to
determine whether a reference image is needed based on the given text prompt; a
hierarchical image selection module is introduced to find the most suitable
image returned by an image search engine to enhance the T2I model; a
self-reflection mechanism is presented to continuously evaluate and refine the
generated image to ensure faithful alignment with the text prompt. To evaluate
the proposed framework's performance, we collect a dataset named Img-Ref-T2I,
where text prompts include three types of uncertain knowledge: (1) known but
rare. (2) unknown. (3) ambiguous. Moreover, we carefully craft a complex prompt
to guide GPT-4o in making preference evaluation, which has been shown to have
an evaluation accuracy similar to that of human preference evaluation.
Experimental results demonstrate the effectiveness of our framework,
outperforming GPT-4o by about 30% in human evaluation.Summary
AI-Generated Summary