IA-T2I: Geração de Imagens a partir de Texto Aumentada pela Internet

Resumo

Os modelos atuais de geração de texto para imagem (T2I) alcançam resultados promissores, mas falham em cenários onde o conhecimento implícito no prompt de texto é incerto. Por exemplo, um modelo T2I lançado em fevereiro teria dificuldade em gerar um pôster adequado para um filme que estreia em abril, porque os designs e estilos dos personagens são incertos para o modelo. Para resolver esse problema, propomos um framework de geração de texto para imagem aumentado pela Internet (IA-T2I) para capacitar os modelos T2I a compreenderem esse conhecimento incerto, fornecendo-lhes imagens de referência. Especificamente, um módulo de recuperação ativa é projetado para determinar se uma imagem de referência é necessária com base no prompt de texto fornecido; um módulo de seleção hierárquica de imagens é introduzido para encontrar a imagem mais adequada retornada por um mecanismo de busca de imagens para aprimorar o modelo T2I; um mecanismo de autorreflexão é apresentado para avaliar e refinar continuamente a imagem gerada, garantindo uma alinhamento fiel com o prompt de texto. Para avaliar o desempenho do framework proposto, coletamos um conjunto de dados chamado Img-Ref-T2I, onde os prompts de texto incluem três tipos de conhecimento incerto: (1) conhecido, mas raro. (2) desconhecido. (3) ambíguo. Além disso, elaboramos cuidadosamente um prompt complexo para orientar o GPT-4o na avaliação de preferência, que demonstrou ter uma precisão de avaliação semelhante à da avaliação de preferência humana. Os resultados experimentais demonstram a eficácia do nosso framework, superando o GPT-4o em cerca de 30% na avaliação humana.

English

Current text-to-image (T2I) generation models achieve promising results, but they fail on the scenarios where the knowledge implied in the text prompt is uncertain. For example, a T2I model released in February would struggle to generate a suitable poster for a movie premiering in April, because the character designs and styles are uncertain to the model. To solve this problem, we propose an Internet-Augmented text-to-image generation (IA-T2I) framework to compel T2I models clear about such uncertain knowledge by providing them with reference images. Specifically, an active retrieval module is designed to determine whether a reference image is needed based on the given text prompt; a hierarchical image selection module is introduced to find the most suitable image returned by an image search engine to enhance the T2I model; a self-reflection mechanism is presented to continuously evaluate and refine the generated image to ensure faithful alignment with the text prompt. To evaluate the proposed framework's performance, we collect a dataset named Img-Ref-T2I, where text prompts include three types of uncertain knowledge: (1) known but rare. (2) unknown. (3) ambiguous. Moreover, we carefully craft a complex prompt to guide GPT-4o in making preference evaluation, which has been shown to have an evaluation accuracy similar to that of human preference evaluation. Experimental results demonstrate the effectiveness of our framework, outperforming GPT-4o by about 30% in human evaluation.

IA-T2I: Geração de Imagens a partir de Texto Aumentada pela Internet

IA-T2I: Internet-Augmented Text-to-Image Generation

Resumo

Support