IA-T2I: Internet-augmentatie voor tekst-naar-beeldgeneratie
IA-T2I: Internet-Augmented Text-to-Image Generation
May 21, 2025
Auteurs: Chuanhao Li, Jianwen Sun, Yukang Feng, Mingliang Zhai, Yifan Chang, Kaipeng Zhang
cs.AI
Samenvatting
Huidige tekst-naar-beeld (T2I) generatiemodellen behalen veelbelovende resultaten, maar falen in scenario's waarin de kennis die in de tekstprompt wordt geïmpliceerd onzeker is. Een T2I-model dat in februari is vrijgegeven, zou bijvoorbeeld moeite hebben om een geschikte poster te genereren voor een film die in april in première gaat, omdat de karakterontwerpen en stijlen onzeker zijn voor het model. Om dit probleem op te lossen, stellen we een internet-augmented tekst-naar-beeld generatie (IA-T2I) framework voor om T2I-modellen duidelijkheid te geven over dergelijke onzekere kennis door hen referentiebeelden aan te bieden. Specifiek is een actieve retrievemodule ontworpen om te bepalen of een referentiebeeld nodig is op basis van de gegeven tekstprompt; een hiërarchische beeldselectiemodule is geïntroduceerd om het meest geschikte beeld te vinden dat door een beeldzoekmachine wordt geretourneerd om het T2I-model te versterken; een zelfreflectiemechanisme wordt gepresenteerd om continu het gegenereerde beeld te evalueren en te verfijnen om een getrouwe afstemming met de tekstprompt te garanderen. Om de prestaties van het voorgestelde framework te evalueren, hebben we een dataset genaamd Img-Ref-T2I verzameld, waarin tekstprompts drie soorten onzekere kennis bevatten: (1) bekend maar zeldzaam. (2) onbekend. (3) dubbelzinnig. Bovendien hebben we zorgvuldig een complexe prompt samengesteld om GPT-4o te begeleiden bij het maken van een voorkeursevaluatie, waarvan is aangetoond dat deze een evaluatienauwkeurigheid heeft die vergelijkbaar is met die van menselijke voorkeursevaluatie. Experimentele resultaten tonen de effectiviteit van ons framework aan, dat GPT-4o met ongeveer 30% overtreft in menselijke evaluatie.
English
Current text-to-image (T2I) generation models achieve promising results, but
they fail on the scenarios where the knowledge implied in the text prompt is
uncertain. For example, a T2I model released in February would struggle to
generate a suitable poster for a movie premiering in April, because the
character designs and styles are uncertain to the model. To solve this problem,
we propose an Internet-Augmented text-to-image generation (IA-T2I) framework to
compel T2I models clear about such uncertain knowledge by providing them with
reference images. Specifically, an active retrieval module is designed to
determine whether a reference image is needed based on the given text prompt; a
hierarchical image selection module is introduced to find the most suitable
image returned by an image search engine to enhance the T2I model; a
self-reflection mechanism is presented to continuously evaluate and refine the
generated image to ensure faithful alignment with the text prompt. To evaluate
the proposed framework's performance, we collect a dataset named Img-Ref-T2I,
where text prompts include three types of uncertain knowledge: (1) known but
rare. (2) unknown. (3) ambiguous. Moreover, we carefully craft a complex prompt
to guide GPT-4o in making preference evaluation, which has been shown to have
an evaluation accuracy similar to that of human preference evaluation.
Experimental results demonstrate the effectiveness of our framework,
outperforming GPT-4o by about 30% in human evaluation.