Einfacher Malen als Denken: Können Text-zu-Bild-Modelle die Bühne bereiten, aber nicht das Stück inszenieren?
Easier Painting Than Thinking: Can Text-to-Image Models Set the Stage, but Not Direct the Play?
September 3, 2025
papers.authors: Ouxiang Li, Yuan Wang, Xinting Hu, Huijuan Huang, Rui Chen, Jiarong Ou, Xin Tao, Pengfei Wan, Fuli Feng
cs.AI
papers.abstract
Text-to-Image (T2I)-Generierung zielt darauf ab, Bilder aus textuellen Eingabeaufforderungen zu synthetisieren, die gemeinsam spezifizieren, was gezeigt werden muss, und implizieren, was abgeleitet werden kann, wodurch sie zwei Kernfähigkeiten entsprechen: Komposition und logisches Schlussfolgern. Mit den zunehmenden Fortschritten von T2I-Modellen im Bereich des Schlussfolgerns über die reine Komposition hinaus, offenbaren bestehende Benchmarks jedoch deutliche Einschränkungen bei der umfassenden Bewertung dieser Fähigkeiten sowohl im Gesamten als auch im Detail. Gleichzeitig ermöglichen diese Fortschritte den Modellen, komplexere Eingabeaufforderungen zu verarbeiten, während aktuelle Benchmarks auf geringe Szenendichte und vereinfachte Eins-zu-eins-Schlussfolgerungen beschränkt bleiben. Um diese Einschränkungen zu adressieren, schlagen wir T2I-CoReBench vor, einen umfassenden und komplexen Benchmark, der sowohl die Kompositions- als auch die Schlussfolgerungsfähigkeiten von T2I-Modellen bewertet. Um Vollständigkeit zu gewährleisten, strukturieren wir die Komposition um Elemente von Szenengraphen (Instanz, Attribut und Relation) und das logische Schlussfolgern um das philosophische Rahmenwerk der Inferenz (deduktiv, induktiv und abduktiv), wodurch eine 12-dimensionale Bewertungstaxonomie formuliert wird. Um die Komplexität zu erhöhen, kuratieren wir jede Eingabeaufforderung, angetrieben durch die inhärenten Komplexitäten realer Szenarien, mit hoher Kompositionsdichte für die Komposition und mehrstufiger Inferenz für das logische Schlussfolgern. Zusätzlich versehen wir jede Eingabeaufforderung mit einer Checkliste, die individuelle Ja/Nein-Fragen spezifiziert, um jedes beabsichtigte Element unabhängig zu bewerten und so eine fein granulare und zuverlässige Bewertung zu ermöglichen. Statistisch gesehen umfasst unser Benchmark 1.080 anspruchsvolle Eingabeaufforderungen und rund 13.500 Checklisten-Fragen. Experimente mit 27 aktuellen T2I-Modellen zeigen, dass ihre Kompositionsfähigkeit in komplexen, hochdichten Szenarien weiterhin begrenzt bleibt, während die Fähigkeit zum logischen Schlussfolgern als kritischer Engpass noch weiter zurückliegt, wobei alle Modelle Schwierigkeiten haben, implizite Elemente aus den Eingabeaufforderungen abzuleiten. Unsere Projektseite: https://t2i-corebench.github.io/.
English
Text-to-image (T2I) generation aims to synthesize images from textual
prompts, which jointly specify what must be shown and imply what can be
inferred, thereby corresponding to two core capabilities: composition and
reasoning. However, with the emerging advances of T2I models in reasoning
beyond composition, existing benchmarks reveal clear limitations in providing
comprehensive evaluations across and within these capabilities. Meanwhile,
these advances also enable models to handle more complex prompts, whereas
current benchmarks remain limited to low scene density and simplified
one-to-one reasoning. To address these limitations, we propose T2I-CoReBench, a
comprehensive and complex benchmark that evaluates both composition and
reasoning capabilities of T2I models. To ensure comprehensiveness, we structure
composition around scene graph elements (instance, attribute, and relation) and
reasoning around the philosophical framework of inference (deductive,
inductive, and abductive), formulating a 12-dimensional evaluation taxonomy. To
increase complexity, driven by the inherent complexities of real-world
scenarios, we curate each prompt with high compositional density for
composition and multi-step inference for reasoning. We also pair each prompt
with a checklist that specifies individual yes/no questions to assess each
intended element independently to facilitate fine-grained and reliable
evaluation. In statistics, our benchmark comprises 1,080 challenging prompts
and around 13,500 checklist questions. Experiments across 27 current T2I models
reveal that their composition capability still remains limited in complex
high-density scenarios, while the reasoning capability lags even further behind
as a critical bottleneck, with all models struggling to infer implicit elements
from prompts. Our project page: https://t2i-corebench.github.io/.