T2I-CompBench: Un Benchmark Completo per la Generazione Composizionale da Testo a Immagine in Mondi Aperti
T2I-CompBench: A Comprehensive Benchmark for Open-world Compositional Text-to-image Generation
July 12, 2023
Autori: Kaiyi Huang, Kaiyue Sun, Enze Xie, Zhenguo Li, Xihui Liu
cs.AI
Abstract
Nonostante la straordinaria capacità di generare immagini di alta qualità dimostrata dai recenti modelli di testo-immagine, gli approcci attuali spesso faticano a comporre efficacemente oggetti con attributi e relazioni diversi in una scena complessa e coerente. Proponiamo T2I-CompBench, un benchmark completo per la generazione compositiva di immagini da testo in contesti aperti, costituito da 6.000 prompt testuali compositivi suddivisi in 3 categorie (associazione di attributi, relazioni tra oggetti e composizioni complesse) e 6 sottocategorie (associazione di colore, associazione di forma, associazione di texture, relazioni spaziali, relazioni non spaziali e composizioni complesse). Proponiamo inoltre diverse metriche di valutazione specificamente progettate per valutare la generazione compositiva di immagini da testo. Introduciamo un nuovo approccio, denominato Generative mOdel fine-tuning with Reward-driven Sample selection (GORS), per potenziare le capacità di generazione compositiva di immagini da testo nei modelli preaddestrati. Sono stati condotti esperimenti e valutazioni estensivi per confrontare i metodi precedenti su T2I-CompBench e per validare l'efficacia delle nostre metriche di valutazione proposte e dell'approccio GORS. La pagina del progetto è disponibile all'indirizzo https://karine-h.github.io/T2I-CompBench/.
English
Despite the stunning ability to generate high-quality images by recent
text-to-image models, current approaches often struggle to effectively compose
objects with different attributes and relationships into a complex and coherent
scene. We propose T2I-CompBench, a comprehensive benchmark for open-world
compositional text-to-image generation, consisting of 6,000 compositional text
prompts from 3 categories (attribute binding, object relationships, and complex
compositions) and 6 sub-categories (color binding, shape binding, texture
binding, spatial relationships, non-spatial relationships, and complex
compositions). We further propose several evaluation metrics specifically
designed to evaluate compositional text-to-image generation. We introduce a new
approach, Generative mOdel fine-tuning with Reward-driven Sample selection
(GORS), to boost the compositional text-to-image generation abilities of
pretrained text-to-image models. Extensive experiments and evaluations are
conducted to benchmark previous methods on T2I-CompBench, and to validate the
effectiveness of our proposed evaluation metrics and GORS approach. Project
page is available at https://karine-h.github.io/T2I-CompBench/.