Tudo em Seu Devido Lugar: Avaliação da Inteligência Espacial em Modelos de Texto para Imagem
Everything in Its Place: Benchmarking Spatial Intelligence of Text-to-Image Models
January 28, 2026
Autores: Zengbin Wang, Xuecai Hu, Yong Wang, Feng Xiong, Man Zhang, Xiangxiang Chu
cs.AI
Resumo
Os modelos de texto-para-imagem (T2I) alcançaram um sucesso notável na geração de imagens de alta fidelidade, mas frequentemente falham ao lidar com relações espaciais complexas, por exemplo, perceção espacial, raciocínio ou interação. Estes aspetos críticos são largamente negligenciados pelos *benchmarks* atuais devido ao seu design de *prompts* curtos ou com pouca informação. Neste artigo, apresentamos o SpatialGenEval, um novo *benchmark* concebido para avaliar sistematicamente a inteligência espacial dos modelos T2I, abrangendo dois aspetos principais: (1) O SpatialGenEval envolve 1.230 *prompts* longos e densos em informação, abrangendo 25 cenários do mundo real. Cada *prompt* integra 10 subdomínios espaciais e os correspondentes 10 pares de perguntas-resposta de escolha múltipla, variando desde a posição e disposição de objetos até oclusão e causalidade. A nossa avaliação extensiva de 21 modelos de última geração revela que o raciocínio espacial de ordem superior permanece um estrangulamento primário. (2) Para demonstrar que a utilidade do nosso design denso em informação vai além de uma simples avaliação, também construímos o conjunto de dados SpatialT2I. Este contém 15.400 pares texto-imagem com *prompts* reescritos para garantir a consistência da imagem, preservando simultaneamente a densidade de informação. Os resultados do *fine-tuning* em modelos base atuais (ou seja, Stable Diffusion-XL, Uniworld-V1, OmniGen2) produzem ganhos de desempenho consistentes (+4,2%, +5,7%, +4,4%) e efeitos mais realistas nas relações espaciais, destacando um paradigma centrado em dados para alcançar inteligência espacial em modelos T2I.
English
Text-to-image (T2I) models have achieved remarkable success in generating high-fidelity images, but they often fail in handling complex spatial relationships, e.g., spatial perception, reasoning, or interaction. These critical aspects are largely overlooked by current benchmarks due to their short or information-sparse prompt design. In this paper, we introduce SpatialGenEval, a new benchmark designed to systematically evaluate the spatial intelligence of T2I models, covering two key aspects: (1) SpatialGenEval involves 1,230 long, information-dense prompts across 25 real-world scenes. Each prompt integrates 10 spatial sub-domains and corresponding 10 multi-choice question-answer pairs, ranging from object position and layout to occlusion and causality. Our extensive evaluation of 21 state-of-the-art models reveals that higher-order spatial reasoning remains a primary bottleneck. (2) To demonstrate that the utility of our information-dense design goes beyond simple evaluation, we also construct the SpatialT2I dataset. It contains 15,400 text-image pairs with rewritten prompts to ensure image consistency while preserving information density. Fine-tuned results on current foundation models (i.e., Stable Diffusion-XL, Uniworld-V1, OmniGen2) yield consistent performance gains (+4.2%, +5.7%, +4.4%) and more realistic effects in spatial relations, highlighting a data-centric paradigm to achieve spatial intelligence in T2I models.