IA-T2I: Generazione di Immagini da Testo Aumentata con Internet
IA-T2I: Internet-Augmented Text-to-Image Generation
May 21, 2025
Autori: Chuanhao Li, Jianwen Sun, Yukang Feng, Mingliang Zhai, Yifan Chang, Kaipeng Zhang
cs.AI
Abstract
I modelli attuali di generazione da testo a immagine (T2I) ottengono risultati promettenti, ma falliscono negli scenari in cui la conoscenza implicita nel prompt di testo è incerta. Ad esempio, un modello T2I rilasciato a febbraio avrebbe difficoltà a generare un poster adatto per un film in uscita ad aprile, poiché i design dei personaggi e gli stili sono incerti per il modello. Per risolvere questo problema, proponiamo un framework di generazione da testo a immagine aumentato da Internet (IA-T2I) per rendere i modelli T2I consapevoli di tale conoscenza incerta fornendo loro immagini di riferimento. Nello specifico, un modulo di recupero attivo è progettato per determinare se è necessaria un'immagine di riferimento in base al prompt di testo fornito; un modulo di selezione gerarchica delle immagini è introdotto per trovare l'immagine più adatta restituita da un motore di ricerca di immagini per migliorare il modello T2I; un meccanismo di auto-riflessione è presentato per valutare e perfezionare continuamente l'immagine generata, garantendo un allineamento fedele con il prompt di testo. Per valutare le prestazioni del framework proposto, raccogliamo un dataset denominato Img-Ref-T2I, in cui i prompt di testo includono tre tipi di conoscenza incerta: (1) nota ma rara, (2) sconosciuta, (3) ambigua. Inoltre, elaboriamo con cura un prompt complesso per guidare GPT-4o nella valutazione delle preferenze, che ha dimostrato un'accuratezza di valutazione simile a quella della valutazione delle preferenze umane. I risultati sperimentali dimostrano l'efficacia del nostro framework, superando GPT-4o di circa il 30% nella valutazione umana.
English
Current text-to-image (T2I) generation models achieve promising results, but
they fail on the scenarios where the knowledge implied in the text prompt is
uncertain. For example, a T2I model released in February would struggle to
generate a suitable poster for a movie premiering in April, because the
character designs and styles are uncertain to the model. To solve this problem,
we propose an Internet-Augmented text-to-image generation (IA-T2I) framework to
compel T2I models clear about such uncertain knowledge by providing them with
reference images. Specifically, an active retrieval module is designed to
determine whether a reference image is needed based on the given text prompt; a
hierarchical image selection module is introduced to find the most suitable
image returned by an image search engine to enhance the T2I model; a
self-reflection mechanism is presented to continuously evaluate and refine the
generated image to ensure faithful alignment with the text prompt. To evaluate
the proposed framework's performance, we collect a dataset named Img-Ref-T2I,
where text prompts include three types of uncertain knowledge: (1) known but
rare. (2) unknown. (3) ambiguous. Moreover, we carefully craft a complex prompt
to guide GPT-4o in making preference evaluation, which has been shown to have
an evaluation accuracy similar to that of human preference evaluation.
Experimental results demonstrate the effectiveness of our framework,
outperforming GPT-4o by about 30% in human evaluation.