IA-T2I: Internet-augmentierte Text-zu-Bild-Generierung
IA-T2I: Internet-Augmented Text-to-Image Generation
May 21, 2025
Autoren: Chuanhao Li, Jianwen Sun, Yukang Feng, Mingliang Zhai, Yifan Chang, Kaipeng Zhang
cs.AI
Zusammenfassung
Aktuelle Text-zu-Bild (T2I)-Generierungsmodelle erzielen vielversprechende Ergebnisse, scheitern jedoch in Szenarien, in denen das im Textprompt implizierte Wissen unsicher ist. Beispielsweise würde ein im Februar veröffentlichtes T2I-Modell Schwierigkeiten haben, ein geeignetes Poster für einen Film zu generieren, der im April Premiere hat, da die Charakterdesigns und Stile für das Modell unsicher sind. Um dieses Problem zu lösen, schlagen wir ein internetgestütztes Text-zu-Bild-Generierungsframework (IA-T2I) vor, das T2I-Modelle durch die Bereitstellung von Referenzbildern dazu befähigt, solches unsicheres Wissen zu klären. Konkret wird ein aktives Retrieval-Modul entwickelt, um basierend auf dem gegebenen Textprompt zu bestimmen, ob ein Referenzbild benötigt wird; ein hierarchisches Bildauswahlmodul wird eingeführt, um das am besten geeignete Bild, das von einer Bildsuchmaschine zurückgegeben wird, zu finden und das T2I-Modell zu verbessern; ein Selbstreflexionsmechanismus wird vorgestellt, um das generierte Bild kontinuierlich zu bewerten und zu verfeinern, um eine treue Ausrichtung an dem Textprompt sicherzustellen. Um die Leistung des vorgeschlagenen Frameworks zu bewerten, sammeln wir einen Datensatz namens Img-Ref-T2I, in dem Textprompts drei Arten von unsicherem Wissen enthalten: (1) bekannt, aber selten. (2) unbekannt. (3) mehrdeutig. Darüber hinaus erstellen wir sorgfältig einen komplexen Prompt, um GPT-4o bei der Präferenzbewertung zu leiten, was sich als ähnlich genau wie die menschliche Präferenzbewertung erwiesen hat. Experimentelle Ergebnisse demonstrieren die Effektivität unseres Frameworks, das GPT-4o in der menschlichen Bewertung um etwa 30 % übertrifft.
English
Current text-to-image (T2I) generation models achieve promising results, but
they fail on the scenarios where the knowledge implied in the text prompt is
uncertain. For example, a T2I model released in February would struggle to
generate a suitable poster for a movie premiering in April, because the
character designs and styles are uncertain to the model. To solve this problem,
we propose an Internet-Augmented text-to-image generation (IA-T2I) framework to
compel T2I models clear about such uncertain knowledge by providing them with
reference images. Specifically, an active retrieval module is designed to
determine whether a reference image is needed based on the given text prompt; a
hierarchical image selection module is introduced to find the most suitable
image returned by an image search engine to enhance the T2I model; a
self-reflection mechanism is presented to continuously evaluate and refine the
generated image to ensure faithful alignment with the text prompt. To evaluate
the proposed framework's performance, we collect a dataset named Img-Ref-T2I,
where text prompts include three types of uncertain knowledge: (1) known but
rare. (2) unknown. (3) ambiguous. Moreover, we carefully craft a complex prompt
to guide GPT-4o in making preference evaluation, which has been shown to have
an evaluation accuracy similar to that of human preference evaluation.
Experimental results demonstrate the effectiveness of our framework,
outperforming GPT-4o by about 30% in human evaluation.Summary
AI-Generated Summary