Pintar es más fácil que pensar: ¿Pueden los modelos de texto a imagen preparar el escenario, pero no dirigir la obra?
Easier Painting Than Thinking: Can Text-to-Image Models Set the Stage, but Not Direct the Play?
September 3, 2025
Autores: Ouxiang Li, Yuan Wang, Xinting Hu, Huijuan Huang, Rui Chen, Jiarong Ou, Xin Tao, Pengfei Wan, Fuli Feng
cs.AI
Resumen
La generación de texto a imagen (T2I, por sus siglas en inglés) tiene como objetivo sintetizar imágenes a partir de indicaciones textuales, las cuales especifican conjuntamente lo que debe mostrarse e implican lo que puede inferirse, correspondiendo así a dos capacidades fundamentales: composición y razonamiento. Sin embargo, con los avances emergentes de los modelos T2I en razonamiento más allá de la composición, los benchmarks existentes revelan limitaciones claras para proporcionar evaluaciones integrales tanto entre como dentro de estas capacidades. Al mismo tiempo, estos avances también permiten que los modelos manejen indicaciones más complejas, mientras que los benchmarks actuales siguen limitados a una baja densidad de escenas y un razonamiento simplificado de uno a uno. Para abordar estas limitaciones, proponemos T2I-CoReBench, un benchmark integral y complejo que evalúa tanto las capacidades de composición como de razonamiento de los modelos T2I. Para garantizar la exhaustividad, estructuramos la composición en torno a elementos de grafos de escenas (instancia, atributo y relación) y el razonamiento en torno al marco filosófico de la inferencia (deductiva, inductiva y abductiva), formulando una taxonomía de evaluación de 12 dimensiones. Para aumentar la complejidad, impulsados por las complejidades inherentes de los escenarios del mundo real, seleccionamos cada indicación con una alta densidad composicional para la composición y una inferencia de múltiples pasos para el razonamiento. También emparejamos cada indicación con una lista de verificación que especifica preguntas individuales de sí/no para evaluar cada elemento previsto de manera independiente, facilitando así una evaluación detallada y confiable. En términos estadísticos, nuestro benchmark comprende 1,080 indicaciones desafiantes y alrededor de 13,500 preguntas de lista de verificación. Los experimentos realizados en 27 modelos T2I actuales revelan que su capacidad de composición sigue siendo limitada en escenarios complejos de alta densidad, mientras que la capacidad de razonamiento se queda aún más atrás como un cuello de botella crítico, con todos los modelos luchando por inferir elementos implícitos a partir de las indicaciones. Nuestra página del proyecto: https://t2i-corebench.github.io/.
English
Text-to-image (T2I) generation aims to synthesize images from textual
prompts, which jointly specify what must be shown and imply what can be
inferred, thereby corresponding to two core capabilities: composition and
reasoning. However, with the emerging advances of T2I models in reasoning
beyond composition, existing benchmarks reveal clear limitations in providing
comprehensive evaluations across and within these capabilities. Meanwhile,
these advances also enable models to handle more complex prompts, whereas
current benchmarks remain limited to low scene density and simplified
one-to-one reasoning. To address these limitations, we propose T2I-CoReBench, a
comprehensive and complex benchmark that evaluates both composition and
reasoning capabilities of T2I models. To ensure comprehensiveness, we structure
composition around scene graph elements (instance, attribute, and relation) and
reasoning around the philosophical framework of inference (deductive,
inductive, and abductive), formulating a 12-dimensional evaluation taxonomy. To
increase complexity, driven by the inherent complexities of real-world
scenarios, we curate each prompt with high compositional density for
composition and multi-step inference for reasoning. We also pair each prompt
with a checklist that specifies individual yes/no questions to assess each
intended element independently to facilitate fine-grained and reliable
evaluation. In statistics, our benchmark comprises 1,080 challenging prompts
and around 13,500 checklist questions. Experiments across 27 current T2I models
reveal that their composition capability still remains limited in complex
high-density scenarios, while the reasoning capability lags even further behind
as a critical bottleneck, with all models struggling to infer implicit elements
from prompts. Our project page: https://t2i-corebench.github.io/.