IA-T2I: Internet-augmentierte Text-zu-Bild-Generierung

papers.abstract

Aktuelle Text-zu-Bild (T2I)-Generierungsmodelle erzielen vielversprechende Ergebnisse, scheitern jedoch in Szenarien, in denen das im Textprompt implizierte Wissen unsicher ist. Beispielsweise würde ein im Februar veröffentlichtes T2I-Modell Schwierigkeiten haben, ein geeignetes Poster für einen Film zu generieren, der im April Premiere hat, da die Charakterdesigns und Stile für das Modell unsicher sind. Um dieses Problem zu lösen, schlagen wir ein internetgestütztes Text-zu-Bild-Generierungsframework (IA-T2I) vor, das T2I-Modelle durch die Bereitstellung von Referenzbildern dazu befähigt, solches unsicheres Wissen zu klären. Konkret wird ein aktives Retrieval-Modul entwickelt, um basierend auf dem gegebenen Textprompt zu bestimmen, ob ein Referenzbild benötigt wird; ein hierarchisches Bildauswahlmodul wird eingeführt, um das am besten geeignete Bild, das von einer Bildsuchmaschine zurückgegeben wird, zu finden und das T2I-Modell zu verbessern; ein Selbstreflexionsmechanismus wird vorgestellt, um das generierte Bild kontinuierlich zu bewerten und zu verfeinern, um eine treue Ausrichtung an dem Textprompt sicherzustellen. Um die Leistung des vorgeschlagenen Frameworks zu bewerten, sammeln wir einen Datensatz namens Img-Ref-T2I, in dem Textprompts drei Arten von unsicherem Wissen enthalten: (1) bekannt, aber selten. (2) unbekannt. (3) mehrdeutig. Darüber hinaus erstellen wir sorgfältig einen komplexen Prompt, um GPT-4o bei der Präferenzbewertung zu leiten, was sich als ähnlich genau wie die menschliche Präferenzbewertung erwiesen hat. Experimentelle Ergebnisse demonstrieren die Effektivität unseres Frameworks, das GPT-4o in der menschlichen Bewertung um etwa 30 % übertrifft.

English

Current text-to-image (T2I) generation models achieve promising results, but they fail on the scenarios where the knowledge implied in the text prompt is uncertain. For example, a T2I model released in February would struggle to generate a suitable poster for a movie premiering in April, because the character designs and styles are uncertain to the model. To solve this problem, we propose an Internet-Augmented text-to-image generation (IA-T2I) framework to compel T2I models clear about such uncertain knowledge by providing them with reference images. Specifically, an active retrieval module is designed to determine whether a reference image is needed based on the given text prompt; a hierarchical image selection module is introduced to find the most suitable image returned by an image search engine to enhance the T2I model; a self-reflection mechanism is presented to continuously evaluate and refine the generated image to ensure faithful alignment with the text prompt. To evaluate the proposed framework's performance, we collect a dataset named Img-Ref-T2I, where text prompts include three types of uncertain knowledge: (1) known but rare. (2) unknown. (3) ambiguous. Moreover, we carefully craft a complex prompt to guide GPT-4o in making preference evaluation, which has been shown to have an evaluation accuracy similar to that of human preference evaluation. Experimental results demonstrate the effectiveness of our framework, outperforming GPT-4o by about 30% in human evaluation.

IA-T2I: Internet-augmentierte Text-zu-Bild-Generierung

IA-T2I: Internet-Augmented Text-to-Image Generation

papers.abstract

Support