ChatPaper.aiChatPaper

IA-T2I: Geração de Imagens a partir de Texto Aumentada pela Internet

IA-T2I: Internet-Augmented Text-to-Image Generation

May 21, 2025
Autores: Chuanhao Li, Jianwen Sun, Yukang Feng, Mingliang Zhai, Yifan Chang, Kaipeng Zhang
cs.AI

Resumo

Os modelos atuais de geração de texto para imagem (T2I) alcançam resultados promissores, mas falham em cenários onde o conhecimento implícito no prompt de texto é incerto. Por exemplo, um modelo T2I lançado em fevereiro teria dificuldade em gerar um pôster adequado para um filme que estreia em abril, porque os designs e estilos dos personagens são incertos para o modelo. Para resolver esse problema, propomos um framework de geração de texto para imagem aumentado pela Internet (IA-T2I) para capacitar os modelos T2I a compreenderem esse conhecimento incerto, fornecendo-lhes imagens de referência. Especificamente, um módulo de recuperação ativa é projetado para determinar se uma imagem de referência é necessária com base no prompt de texto fornecido; um módulo de seleção hierárquica de imagens é introduzido para encontrar a imagem mais adequada retornada por um mecanismo de busca de imagens para aprimorar o modelo T2I; um mecanismo de autorreflexão é apresentado para avaliar e refinar continuamente a imagem gerada, garantindo uma alinhamento fiel com o prompt de texto. Para avaliar o desempenho do framework proposto, coletamos um conjunto de dados chamado Img-Ref-T2I, onde os prompts de texto incluem três tipos de conhecimento incerto: (1) conhecido, mas raro. (2) desconhecido. (3) ambíguo. Além disso, elaboramos cuidadosamente um prompt complexo para orientar o GPT-4o na avaliação de preferência, que demonstrou ter uma precisão de avaliação semelhante à da avaliação de preferência humana. Os resultados experimentais demonstram a eficácia do nosso framework, superando o GPT-4o em cerca de 30% na avaliação humana.
English
Current text-to-image (T2I) generation models achieve promising results, but they fail on the scenarios where the knowledge implied in the text prompt is uncertain. For example, a T2I model released in February would struggle to generate a suitable poster for a movie premiering in April, because the character designs and styles are uncertain to the model. To solve this problem, we propose an Internet-Augmented text-to-image generation (IA-T2I) framework to compel T2I models clear about such uncertain knowledge by providing them with reference images. Specifically, an active retrieval module is designed to determine whether a reference image is needed based on the given text prompt; a hierarchical image selection module is introduced to find the most suitable image returned by an image search engine to enhance the T2I model; a self-reflection mechanism is presented to continuously evaluate and refine the generated image to ensure faithful alignment with the text prompt. To evaluate the proposed framework's performance, we collect a dataset named Img-Ref-T2I, where text prompts include three types of uncertain knowledge: (1) known but rare. (2) unknown. (3) ambiguous. Moreover, we carefully craft a complex prompt to guide GPT-4o in making preference evaluation, which has been shown to have an evaluation accuracy similar to that of human preference evaluation. Experimental results demonstrate the effectiveness of our framework, outperforming GPT-4o by about 30% in human evaluation.
PDF142December 8, 2025