Peindre plus facilement que penser : les modèles texte-image peuvent-ils préparer la scène, mais non diriger la pièce ?
Easier Painting Than Thinking: Can Text-to-Image Models Set the Stage, but Not Direct the Play?
September 3, 2025
papers.authors: Ouxiang Li, Yuan Wang, Xinting Hu, Huijuan Huang, Rui Chen, Jiarong Ou, Xin Tao, Pengfei Wan, Fuli Feng
cs.AI
papers.abstract
La génération de texte à image (T2I) vise à synthétiser des images à partir d’indications textuelles, qui spécifient conjointement ce qui doit être montré et impliquent ce qui peut être inféré, correspondant ainsi à deux capacités fondamentales : la composition et le raisonnement. Cependant, avec les avancées récentes des modèles T2I dans le raisonnement au-delà de la composition, les benchmarks existants révèlent des limites évidentes dans leur capacité à fournir des évaluations complètes à travers et au sein de ces compétences. Parallèlement, ces avancées permettent également aux modèles de traiter des indications plus complexes, alors que les benchmarks actuels restent limités à une faible densité de scènes et à un raisonnement simplifié de type un-à-un. Pour répondre à ces limites, nous proposons T2I-CoReBench, un benchmark complet et complexe qui évalue à la fois les capacités de composition et de raisonnement des modèles T2I. Pour garantir l'exhaustivité, nous structurons la composition autour des éléments d'un graphe de scène (instance, attribut et relation) et le raisonnement autour du cadre philosophique de l'inférence (déductive, inductive et abductive), formulant ainsi une taxonomie d'évaluation en 12 dimensions. Pour accroître la complexité, inspirée par les complexités inhérentes des scénarios réels, nous concevons chaque indication avec une densité compositionnelle élevée pour la composition et une inférence à plusieurs étapes pour le raisonnement. Nous associons également chaque indication à une liste de vérification qui spécifie des questions individuelles de type oui/non pour évaluer chaque élément visé de manière indépendante, facilitant ainsi une évaluation fine et fiable. En termes de statistiques, notre benchmark comprend 1 080 indications complexes et environ 13 500 questions de vérification. Les expériences menées sur 27 modèles T2I actuels révèlent que leur capacité de composition reste limitée dans des scénarios complexes à haute densité, tandis que la capacité de raisonnement est encore plus en retard, constituant un goulot d'étranglement critique, avec tous les modèles peinant à inférer des éléments implicites à partir des indications. Notre page de projet : https://t2i-corebench.github.io/.
English
Text-to-image (T2I) generation aims to synthesize images from textual
prompts, which jointly specify what must be shown and imply what can be
inferred, thereby corresponding to two core capabilities: composition and
reasoning. However, with the emerging advances of T2I models in reasoning
beyond composition, existing benchmarks reveal clear limitations in providing
comprehensive evaluations across and within these capabilities. Meanwhile,
these advances also enable models to handle more complex prompts, whereas
current benchmarks remain limited to low scene density and simplified
one-to-one reasoning. To address these limitations, we propose T2I-CoReBench, a
comprehensive and complex benchmark that evaluates both composition and
reasoning capabilities of T2I models. To ensure comprehensiveness, we structure
composition around scene graph elements (instance, attribute, and relation) and
reasoning around the philosophical framework of inference (deductive,
inductive, and abductive), formulating a 12-dimensional evaluation taxonomy. To
increase complexity, driven by the inherent complexities of real-world
scenarios, we curate each prompt with high compositional density for
composition and multi-step inference for reasoning. We also pair each prompt
with a checklist that specifies individual yes/no questions to assess each
intended element independently to facilitate fine-grained and reliable
evaluation. In statistics, our benchmark comprises 1,080 challenging prompts
and around 13,500 checklist questions. Experiments across 27 current T2I models
reveal that their composition capability still remains limited in complex
high-density scenarios, while the reasoning capability lags even further behind
as a critical bottleneck, with all models struggling to infer implicit elements
from prompts. Our project page: https://t2i-corebench.github.io/.