IA-T2I: Geração de Imagens a partir de Texto Aumentada pela Internet
IA-T2I: Internet-Augmented Text-to-Image Generation
May 21, 2025
Autores: Chuanhao Li, Jianwen Sun, Yukang Feng, Mingliang Zhai, Yifan Chang, Kaipeng Zhang
cs.AI
Resumo
Os modelos atuais de geração de texto para imagem (T2I) alcançam resultados promissores, mas falham em cenários onde o conhecimento implícito no prompt de texto é incerto. Por exemplo, um modelo T2I lançado em fevereiro teria dificuldade em gerar um pôster adequado para um filme que estreia em abril, porque os designs e estilos dos personagens são incertos para o modelo. Para resolver esse problema, propomos um framework de geração de texto para imagem aumentado pela Internet (IA-T2I) para capacitar os modelos T2I a compreenderem esse conhecimento incerto, fornecendo-lhes imagens de referência. Especificamente, um módulo de recuperação ativa é projetado para determinar se uma imagem de referência é necessária com base no prompt de texto fornecido; um módulo de seleção hierárquica de imagens é introduzido para encontrar a imagem mais adequada retornada por um mecanismo de busca de imagens para aprimorar o modelo T2I; um mecanismo de autorreflexão é apresentado para avaliar e refinar continuamente a imagem gerada, garantindo uma alinhamento fiel com o prompt de texto. Para avaliar o desempenho do framework proposto, coletamos um conjunto de dados chamado Img-Ref-T2I, onde os prompts de texto incluem três tipos de conhecimento incerto: (1) conhecido, mas raro. (2) desconhecido. (3) ambíguo. Além disso, elaboramos cuidadosamente um prompt complexo para orientar o GPT-4o na avaliação de preferência, que demonstrou ter uma precisão de avaliação semelhante à da avaliação de preferência humana. Os resultados experimentais demonstram a eficácia do nosso framework, superando o GPT-4o em cerca de 30% na avaliação humana.
English
Current text-to-image (T2I) generation models achieve promising results, but
they fail on the scenarios where the knowledge implied in the text prompt is
uncertain. For example, a T2I model released in February would struggle to
generate a suitable poster for a movie premiering in April, because the
character designs and styles are uncertain to the model. To solve this problem,
we propose an Internet-Augmented text-to-image generation (IA-T2I) framework to
compel T2I models clear about such uncertain knowledge by providing them with
reference images. Specifically, an active retrieval module is designed to
determine whether a reference image is needed based on the given text prompt; a
hierarchical image selection module is introduced to find the most suitable
image returned by an image search engine to enhance the T2I model; a
self-reflection mechanism is presented to continuously evaluate and refine the
generated image to ensure faithful alignment with the text prompt. To evaluate
the proposed framework's performance, we collect a dataset named Img-Ref-T2I,
where text prompts include three types of uncertain knowledge: (1) known but
rare. (2) unknown. (3) ambiguous. Moreover, we carefully craft a complex prompt
to guide GPT-4o in making preference evaluation, which has been shown to have
an evaluation accuracy similar to that of human preference evaluation.
Experimental results demonstrate the effectiveness of our framework,
outperforming GPT-4o by about 30% in human evaluation.