Makkelijker schilderen dan denken: Kunnen tekst-naar-beeldmodellen het toneel klaarzetten, maar niet de voorstelling regisseren?
Easier Painting Than Thinking: Can Text-to-Image Models Set the Stage, but Not Direct the Play?
September 3, 2025
Auteurs: Ouxiang Li, Yuan Wang, Xinting Hu, Huijuan Huang, Rui Chen, Jiarong Ou, Xin Tao, Pengfei Wan, Fuli Feng
cs.AI
Samenvatting
Text-to-image (T2I)-generatie heeft als doel om afbeeldingen te synthetiseren op basis van tekstuele prompts, die gezamenlijk specificeren wat getoond moet worden en impliceren wat afgeleid kan worden, wat overeenkomt met twee kernvaardigheden: compositie en redenering. Met de opkomende vooruitgang van T2I-modellen in redenering die verder gaat dan compositie, tonen bestaande benchmarks echter duidelijke beperkingen in het bieden van uitgebreide evaluaties over en binnen deze vaardigheden. Tegelijkertijd stellen deze vooruitgangen modellen in staat om complexere prompts te verwerken, terwijl huidige benchmarks beperkt blijven tot lage scènedichtheid en vereenvoudigde één-op-één-redenering. Om deze beperkingen aan te pakken, stellen we T2I-CoReBench voor, een uitgebreide en complexe benchmark die zowel de compositie- als redeneervaardigheden van T2I-modellen evalueert. Om uitvoerigheid te waarborgen, structureren we compositie rond scènegrafelementen (instantie, attribuut en relatie) en redenering rond het filosofische kader van inferentie (deductief, inductief en abductief), wat resulteert in een 12-dimensionale evaluatietaxonomie. Om de complexiteit te vergroten, geïnspireerd door de inherente complexiteit van real-world scenario's, cureren we elke prompt met een hoge compositionele dichtheid voor compositie en meerstapsinferentie voor redenering. We koppelen ook elke prompt aan een checklist die individuele ja/nee-vragen specificeert om elk beoogd element onafhankelijk te beoordelen, wat een fijnmazige en betrouwbare evaluatie mogelijk maakt. Statistisch gezien omvat onze benchmark 1.080 uitdagende prompts en ongeveer 13.500 checklistvragen. Experimenten met 27 huidige T2I-modellen tonen aan dat hun compositievermogen nog steeds beperkt blijft in complexe scenario's met hoge dichtheid, terwijl het redeneervermogen nog verder achterblijft als een kritieke bottleneck, waarbij alle modellen moeite hebben om impliciete elementen uit prompts af te leiden. Onze projectpagina: https://t2i-corebench.github.io/.
English
Text-to-image (T2I) generation aims to synthesize images from textual
prompts, which jointly specify what must be shown and imply what can be
inferred, thereby corresponding to two core capabilities: composition and
reasoning. However, with the emerging advances of T2I models in reasoning
beyond composition, existing benchmarks reveal clear limitations in providing
comprehensive evaluations across and within these capabilities. Meanwhile,
these advances also enable models to handle more complex prompts, whereas
current benchmarks remain limited to low scene density and simplified
one-to-one reasoning. To address these limitations, we propose T2I-CoReBench, a
comprehensive and complex benchmark that evaluates both composition and
reasoning capabilities of T2I models. To ensure comprehensiveness, we structure
composition around scene graph elements (instance, attribute, and relation) and
reasoning around the philosophical framework of inference (deductive,
inductive, and abductive), formulating a 12-dimensional evaluation taxonomy. To
increase complexity, driven by the inherent complexities of real-world
scenarios, we curate each prompt with high compositional density for
composition and multi-step inference for reasoning. We also pair each prompt
with a checklist that specifies individual yes/no questions to assess each
intended element independently to facilitate fine-grained and reliable
evaluation. In statistics, our benchmark comprises 1,080 challenging prompts
and around 13,500 checklist questions. Experiments across 27 current T2I models
reveal that their composition capability still remains limited in complex
high-density scenarios, while the reasoning capability lags even further behind
as a critical bottleneck, with all models struggling to infer implicit elements
from prompts. Our project page: https://t2i-corebench.github.io/.