Легче рисовать, чем думать: могут ли модели преобразования текста в изображение задать сцену, но не поставить спектакль?
Easier Painting Than Thinking: Can Text-to-Image Models Set the Stage, but Not Direct the Play?
September 3, 2025
Авторы: Ouxiang Li, Yuan Wang, Xinting Hu, Huijuan Huang, Rui Chen, Jiarong Ou, Xin Tao, Pengfei Wan, Fuli Feng
cs.AI
Аннотация
Генерация изображений по текстовым описаниям (Text-to-Image, T2I) направлена на синтез изображений на основе текстовых запросов, которые одновременно указывают, что должно быть показано, и подразумевают, что может быть выведено, что соответствует двум ключевым способностям: композиции и логическому рассуждению. Однако с развитием T2I-моделей в области рассуждений, выходящих за рамки композиции, существующие тестовые наборы данных демонстрируют явные ограничения в обеспечении всесторонней оценки как между, так и внутри этих способностей. В то же время эти достижения позволяют моделям обрабатывать более сложные запросы, тогда как текущие тестовые наборы остаются ограниченными низкой плотностью сцен и упрощёнными одношаговыми рассуждениями. Чтобы устранить эти ограничения, мы предлагаем T2I-CoReBench — всеобъемлющий и сложный тестовый набор, который оценивает как композиционные, так и логические способности T2I-моделей. Для обеспечения всесторонности мы структурируем композицию вокруг элементов графа сцен (объект, атрибут и связь), а рассуждения — вокруг философской структуры логического вывода (дедуктивного, индуктивного и абдуктивного), формируя 12-мерную таксономию оценки. Чтобы повысить сложность, основываясь на присущей сложности реальных сценариев, мы создаём каждый запрос с высокой композиционной плотностью для композиции и многошаговыми выводами для рассуждений. Мы также сопровождаем каждый запрос контрольным списком, который содержит отдельные вопросы с ответами "да/нет" для независимой оценки каждого задуманного элемента, что способствует детальной и надёжной оценке. В статистическом плане наш тестовый набор включает 1080 сложных запросов и около 13 500 контрольных вопросов. Эксперименты с 27 современными T2I-моделями показывают, что их способность к композиции всё ещё ограничена в сложных сценариях с высокой плотностью, тогда как способность к рассуждению отстаёт ещё больше, являясь критическим узким местом, при этом все модели испытывают трудности с выводом скрытых элементов из запросов. Страница проекта: https://t2i-corebench.github.io/.
English
Text-to-image (T2I) generation aims to synthesize images from textual
prompts, which jointly specify what must be shown and imply what can be
inferred, thereby corresponding to two core capabilities: composition and
reasoning. However, with the emerging advances of T2I models in reasoning
beyond composition, existing benchmarks reveal clear limitations in providing
comprehensive evaluations across and within these capabilities. Meanwhile,
these advances also enable models to handle more complex prompts, whereas
current benchmarks remain limited to low scene density and simplified
one-to-one reasoning. To address these limitations, we propose T2I-CoReBench, a
comprehensive and complex benchmark that evaluates both composition and
reasoning capabilities of T2I models. To ensure comprehensiveness, we structure
composition around scene graph elements (instance, attribute, and relation) and
reasoning around the philosophical framework of inference (deductive,
inductive, and abductive), formulating a 12-dimensional evaluation taxonomy. To
increase complexity, driven by the inherent complexities of real-world
scenarios, we curate each prompt with high compositional density for
composition and multi-step inference for reasoning. We also pair each prompt
with a checklist that specifies individual yes/no questions to assess each
intended element independently to facilitate fine-grained and reliable
evaluation. In statistics, our benchmark comprises 1,080 challenging prompts
and around 13,500 checklist questions. Experiments across 27 current T2I models
reveal that their composition capability still remains limited in complex
high-density scenarios, while the reasoning capability lags even further behind
as a critical bottleneck, with all models struggling to infer implicit elements
from prompts. Our project page: https://t2i-corebench.github.io/.