Pintar é Mais Fácil do que Pensar: Modelos de Texto para Imagem Podem Preparar o Cenário, mas Não Dirigir a Peça?
Easier Painting Than Thinking: Can Text-to-Image Models Set the Stage, but Not Direct the Play?
September 3, 2025
Autores: Ouxiang Li, Yuan Wang, Xinting Hu, Huijuan Huang, Rui Chen, Jiarong Ou, Xin Tao, Pengfei Wan, Fuli Feng
cs.AI
Resumo
A geração de texto para imagem (T2I) visa sintetizar imagens a partir de prompts textuais, que especificam conjuntamente o que deve ser mostrado e implicam o que pode ser inferido, correspondendo assim a duas capacidades principais: composição e raciocínio. No entanto, com os avanços emergentes dos modelos T2I no raciocínio além da composição, os benchmarks existentes revelam limitações claras em fornecer avaliações abrangentes dentro e entre essas capacidades. Enquanto isso, esses avanços também permitem que os modelos lidem com prompts mais complexos, enquanto os benchmarks atuais permanecem limitados a baixa densidade de cena e raciocínio simplificado de um para um. Para abordar essas limitações, propomos o T2I-CoReBench, um benchmark abrangente e complexo que avalia tanto as capacidades de composição quanto de raciocínio dos modelos T2I. Para garantir a abrangência, estruturamos a composição em torno de elementos de grafos de cena (instância, atributo e relação) e o raciocínio em torno do framework filosófico de inferência (dedutiva, indutiva e abdutiva), formulando uma taxonomia de avaliação de 12 dimensões. Para aumentar a complexidade, impulsionados pelas complexidades inerentes dos cenários do mundo real, elaboramos cada prompt com alta densidade composicional para a composição e inferência de múltiplos passos para o raciocínio. Também associamos cada prompt a uma lista de verificação que especifica perguntas individuais de sim/não para avaliar cada elemento pretendido de forma independente, facilitando uma avaliação confiável e detalhada. Em estatísticas, nosso benchmark compreende 1.080 prompts desafiadores e cerca de 13.500 perguntas de lista de verificação. Experimentos com 27 modelos T2I atuais revelam que sua capacidade de composição ainda permanece limitada em cenários complexos de alta densidade, enquanto a capacidade de raciocínio está ainda mais atrasada como um gargalo crítico, com todos os modelos lutando para inferir elementos implícitos a partir dos prompts. Nossa página do projeto: https://t2i-corebench.github.io/.
English
Text-to-image (T2I) generation aims to synthesize images from textual
prompts, which jointly specify what must be shown and imply what can be
inferred, thereby corresponding to two core capabilities: composition and
reasoning. However, with the emerging advances of T2I models in reasoning
beyond composition, existing benchmarks reveal clear limitations in providing
comprehensive evaluations across and within these capabilities. Meanwhile,
these advances also enable models to handle more complex prompts, whereas
current benchmarks remain limited to low scene density and simplified
one-to-one reasoning. To address these limitations, we propose T2I-CoReBench, a
comprehensive and complex benchmark that evaluates both composition and
reasoning capabilities of T2I models. To ensure comprehensiveness, we structure
composition around scene graph elements (instance, attribute, and relation) and
reasoning around the philosophical framework of inference (deductive,
inductive, and abductive), formulating a 12-dimensional evaluation taxonomy. To
increase complexity, driven by the inherent complexities of real-world
scenarios, we curate each prompt with high compositional density for
composition and multi-step inference for reasoning. We also pair each prompt
with a checklist that specifies individual yes/no questions to assess each
intended element independently to facilitate fine-grained and reliable
evaluation. In statistics, our benchmark comprises 1,080 challenging prompts
and around 13,500 checklist questions. Experiments across 27 current T2I models
reveal that their composition capability still remains limited in complex
high-density scenarios, while the reasoning capability lags even further behind
as a critical bottleneck, with all models struggling to infer implicit elements
from prompts. Our project page: https://t2i-corebench.github.io/.