ChatPaper.aiChatPaper

T2I-CompBench : Un Benchmark Complet pour la Génération Compositionnelle de Texte à Image en Monde Ouvert

T2I-CompBench: A Comprehensive Benchmark for Open-world Compositional Text-to-image Generation

July 12, 2023
papers.authors: Kaiyi Huang, Kaiyue Sun, Enze Xie, Zhenguo Li, Xihui Liu
cs.AI

papers.abstract

Malgré la capacité impressionnante des modèles récents de génération d'images à partir de texte à produire des images de haute qualité, les approches actuelles peinent souvent à composer efficacement des objets avec différents attributs et relations dans une scène complexe et cohérente. Nous proposons T2I-CompBench, un benchmark complet pour la génération compositionnelle d'images à partir de texte en monde ouvert, comprenant 6 000 prompts textuels compositionnels répartis en 3 catégories (liaison d'attributs, relations entre objets et compositions complexes) et 6 sous-catégories (liaison de couleur, liaison de forme, liaison de texture, relations spatiales, relations non spatiales et compositions complexes). Nous proposons également plusieurs métriques d'évaluation spécifiquement conçues pour évaluer la génération compositionnelle d'images à partir de texte. Nous introduisons une nouvelle approche, le fine-tuning de modèle génératif avec sélection d'échantillons pilotée par récompense (GORS), pour améliorer les capacités de génération compositionnelle des modèles pré-entraînés de génération d'images à partir de texte. Des expériences et évaluations approfondies sont menées pour comparer les méthodes précédentes sur T2I-CompBench et valider l'efficacité de nos métriques d'évaluation proposées ainsi que de l'approche GORS. La page du projet est disponible à l'adresse suivante : https://karine-h.github.io/T2I-CompBench/.
English
Despite the stunning ability to generate high-quality images by recent text-to-image models, current approaches often struggle to effectively compose objects with different attributes and relationships into a complex and coherent scene. We propose T2I-CompBench, a comprehensive benchmark for open-world compositional text-to-image generation, consisting of 6,000 compositional text prompts from 3 categories (attribute binding, object relationships, and complex compositions) and 6 sub-categories (color binding, shape binding, texture binding, spatial relationships, non-spatial relationships, and complex compositions). We further propose several evaluation metrics specifically designed to evaluate compositional text-to-image generation. We introduce a new approach, Generative mOdel fine-tuning with Reward-driven Sample selection (GORS), to boost the compositional text-to-image generation abilities of pretrained text-to-image models. Extensive experiments and evaluations are conducted to benchmark previous methods on T2I-CompBench, and to validate the effectiveness of our proposed evaluation metrics and GORS approach. Project page is available at https://karine-h.github.io/T2I-CompBench/.
PDF71December 15, 2024