ChatPaper.aiChatPaper

Todo en su lugar: Evaluación comparativa de la inteligencia espacial en modelos de texto a imagen

Everything in Its Place: Benchmarking Spatial Intelligence of Text-to-Image Models

January 28, 2026
Autores: Zengbin Wang, Xuecai Hu, Yong Wang, Feng Xiong, Man Zhang, Xiangxiang Chu
cs.AI

Resumen

Los modelos de texto a imagen (T2I) han logrado un éxito notable en la generación de imágenes de alta fidelidad, pero a menudo fallan al manejar relaciones espaciales complejas, como la percepción, el razonamiento o la interacción espacial. Estos aspectos críticos son ampliamente ignorados por los puntos de referencia actuales debido a su diseño de instrucciones cortas o con escasa información. En este artículo, presentamos SpatialGenEval, un nuevo punto de referencia diseñado para evaluar sistemáticamente la inteligencia espacial de los modelos T2I, abarcando dos aspectos clave: (1) SpatialGenEval incluye 1.230 instrucciones largas y densas en información a través de 25 escenas del mundo real. Cada instrucción integra 10 subdominios espaciales y sus correspondientes 10 pares de preguntas-respuestas de opción múltiple, que abarcan desde la posición y disposición de objetos hasta la oclusión y la causalidad. Nuestra evaluación exhaustiva de 21 modelos de vanguardia revela que el razonamiento espacial de orden superior sigue siendo un cuello de botella principal. (2) Para demostrar que la utilidad de nuestro diseño denso en información va más allá de una simple evaluación, también construimos el conjunto de datos SpatialT2I. Este contiene 15.400 pares de texto-imagen con instrucciones reescritas para garantizar la coherencia de la imagen preservando la densidad de información. Los resultados de ajuste fino en modelos base actuales (es decir, Stable Diffusion-XL, Uniworld-V1, OmniGen2) producen ganancias de rendimiento consistentes (+4.2%, +5.7%, +4.4%) y efectos más realistas en las relaciones espaciales, destacando un paradigma centrado en los datos para lograr inteligencia espacial en los modelos T2I.
English
Text-to-image (T2I) models have achieved remarkable success in generating high-fidelity images, but they often fail in handling complex spatial relationships, e.g., spatial perception, reasoning, or interaction. These critical aspects are largely overlooked by current benchmarks due to their short or information-sparse prompt design. In this paper, we introduce SpatialGenEval, a new benchmark designed to systematically evaluate the spatial intelligence of T2I models, covering two key aspects: (1) SpatialGenEval involves 1,230 long, information-dense prompts across 25 real-world scenes. Each prompt integrates 10 spatial sub-domains and corresponding 10 multi-choice question-answer pairs, ranging from object position and layout to occlusion and causality. Our extensive evaluation of 21 state-of-the-art models reveals that higher-order spatial reasoning remains a primary bottleneck. (2) To demonstrate that the utility of our information-dense design goes beyond simple evaluation, we also construct the SpatialT2I dataset. It contains 15,400 text-image pairs with rewritten prompts to ensure image consistency while preserving information density. Fine-tuned results on current foundation models (i.e., Stable Diffusion-XL, Uniworld-V1, OmniGen2) yield consistent performance gains (+4.2%, +5.7%, +4.4%) and more realistic effects in spatial relations, highlighting a data-centric paradigm to achieve spatial intelligence in T2I models.
PDF993January 31, 2026