ChatPaper.aiChatPaper

Dipinto più facile del pensiero: i modelli di testo-immagine possono preparare la scena, ma non dirigere lo spettacolo?

Easier Painting Than Thinking: Can Text-to-Image Models Set the Stage, but Not Direct the Play?

September 3, 2025
Autori: Ouxiang Li, Yuan Wang, Xinting Hu, Huijuan Huang, Rui Chen, Jiarong Ou, Xin Tao, Pengfei Wan, Fuli Feng
cs.AI

Abstract

La generazione da testo a immagine (Text-to-Image, T2I) mira a sintetizzare immagini a partire da prompt testuali, che specificano congiuntamente cosa deve essere mostrato e implicano cosa può essere dedotto, corrispondendo così a due capacità fondamentali: composizione e ragionamento. Tuttavia, con i progressi emergenti dei modelli T2I nel ragionamento oltre la composizione, i benchmark esistenti rivelano chiare limitazioni nel fornire valutazioni complete sia tra che all'interno di queste capacità. Nel frattempo, questi progressi consentono anche ai modelli di gestire prompt più complessi, mentre i benchmark attuali rimangono limitati a una bassa densità di scene e a un ragionamento semplificato uno-a-uno. Per affrontare queste limitazioni, proponiamo T2I-CoReBench, un benchmark completo e complesso che valuta sia le capacità di composizione che di ragionamento dei modelli T2I. Per garantire la completezza, strutturiamo la composizione attorno agli elementi del grafo di scena (istanza, attributo e relazione) e il ragionamento attorno al quadro filosofico dell'inferenza (deduttiva, induttiva e abduttiva), formulando una tassonomia di valutazione a 12 dimensioni. Per aumentare la complessità, guidati dalle complessità intrinseche degli scenari del mondo reale, curiamo ogni prompt con un'alta densità compositiva per la composizione e inferenze multi-step per il ragionamento. Abbiamo anche associato a ogni prompt una checklist che specifica singole domande sì/no per valutare ogni elemento inteso in modo indipendente, facilitando una valutazione granulare e affidabile. In termini statistici, il nostro benchmark comprende 1.080 prompt impegnativi e circa 13.500 domande di checklist. Esperimenti condotti su 27 modelli T2I attuali rivelano che la loro capacità di composizione rimane ancora limitata in scenari complessi ad alta densità, mentre la capacità di ragionamento è ancora più indietro come un collo di bottiglia critico, con tutti i modelli che faticano a dedurre elementi impliciti dai prompt. La nostra pagina del progetto: https://t2i-corebench.github.io/.
English
Text-to-image (T2I) generation aims to synthesize images from textual prompts, which jointly specify what must be shown and imply what can be inferred, thereby corresponding to two core capabilities: composition and reasoning. However, with the emerging advances of T2I models in reasoning beyond composition, existing benchmarks reveal clear limitations in providing comprehensive evaluations across and within these capabilities. Meanwhile, these advances also enable models to handle more complex prompts, whereas current benchmarks remain limited to low scene density and simplified one-to-one reasoning. To address these limitations, we propose T2I-CoReBench, a comprehensive and complex benchmark that evaluates both composition and reasoning capabilities of T2I models. To ensure comprehensiveness, we structure composition around scene graph elements (instance, attribute, and relation) and reasoning around the philosophical framework of inference (deductive, inductive, and abductive), formulating a 12-dimensional evaluation taxonomy. To increase complexity, driven by the inherent complexities of real-world scenarios, we curate each prompt with high compositional density for composition and multi-step inference for reasoning. We also pair each prompt with a checklist that specifies individual yes/no questions to assess each intended element independently to facilitate fine-grained and reliable evaluation. In statistics, our benchmark comprises 1,080 challenging prompts and around 13,500 checklist questions. Experiments across 27 current T2I models reveal that their composition capability still remains limited in complex high-density scenarios, while the reasoning capability lags even further behind as a critical bottleneck, with all models struggling to infer implicit elements from prompts. Our project page: https://t2i-corebench.github.io/.
PDF112September 9, 2025