IA-T2I : Génération d'images à partir de texte augmentée par Internet
IA-T2I: Internet-Augmented Text-to-Image Generation
May 21, 2025
Auteurs: Chuanhao Li, Jianwen Sun, Yukang Feng, Mingliang Zhai, Yifan Chang, Kaipeng Zhang
cs.AI
Résumé
Les modèles actuels de génération texte-image (T2I) obtiennent des résultats prometteurs, mais ils échouent dans les scénarios où les connaissances implicites dans l'invite textuelle sont incertaines. Par exemple, un modèle T2I publié en février aurait du mal à générer une affiche appropriée pour un film sortant en avril, car les designs et styles des personnages sont incertains pour le modèle. Pour résoudre ce problème, nous proposons un cadre de génération texte-image augmenté par Internet (IA-T2I) afin de permettre aux modèles T2I de clarifier ces connaissances incertaines en leur fournissant des images de référence. Plus précisément, un module de récupération active est conçu pour déterminer si une image de référence est nécessaire en fonction de l'invite textuelle donnée ; un module de sélection d'images hiérarchique est introduit pour trouver l'image la plus adaptée retournée par un moteur de recherche d'images afin d'améliorer le modèle T2I ; un mécanisme d'auto-réflexion est présenté pour évaluer et affiner continuellement l'image générée afin de garantir un alignement fidèle avec l'invite textuelle. Pour évaluer les performances du cadre proposé, nous collectons un ensemble de données nommé Img-Ref-T2I, où les invites textuelles incluent trois types de connaissances incertaines : (1) connues mais rares, (2) inconnues, (3) ambiguës. De plus, nous élaborons soigneusement une invite complexe pour guider GPT-4o dans l'évaluation des préférences, qui s'est avérée avoir une précision d'évaluation similaire à celle de l'évaluation des préférences humaines. Les résultats expérimentaux démontrent l'efficacité de notre cadre, surpassant GPT-4o d'environ 30 % dans l'évaluation humaine.
English
Current text-to-image (T2I) generation models achieve promising results, but
they fail on the scenarios where the knowledge implied in the text prompt is
uncertain. For example, a T2I model released in February would struggle to
generate a suitable poster for a movie premiering in April, because the
character designs and styles are uncertain to the model. To solve this problem,
we propose an Internet-Augmented text-to-image generation (IA-T2I) framework to
compel T2I models clear about such uncertain knowledge by providing them with
reference images. Specifically, an active retrieval module is designed to
determine whether a reference image is needed based on the given text prompt; a
hierarchical image selection module is introduced to find the most suitable
image returned by an image search engine to enhance the T2I model; a
self-reflection mechanism is presented to continuously evaluate and refine the
generated image to ensure faithful alignment with the text prompt. To evaluate
the proposed framework's performance, we collect a dataset named Img-Ref-T2I,
where text prompts include three types of uncertain knowledge: (1) known but
rare. (2) unknown. (3) ambiguous. Moreover, we carefully craft a complex prompt
to guide GPT-4o in making preference evaluation, which has been shown to have
an evaluation accuracy similar to that of human preference evaluation.
Experimental results demonstrate the effectiveness of our framework,
outperforming GPT-4o by about 30% in human evaluation.Summary
AI-Generated Summary