ChatPaper.aiChatPaper

Tout à sa place : Évaluer l'intelligence spatiale des modèles de génération d'image par texte

Everything in Its Place: Benchmarking Spatial Intelligence of Text-to-Image Models

January 28, 2026
papers.authors: Zengbin Wang, Xuecai Hu, Yong Wang, Feng Xiong, Man Zhang, Xiangxiang Chu
cs.AI

papers.abstract

Les modèles texte-image (T2I) ont connu un succès remarquable dans la génération d'images à haute fidélité, mais ils échouent souvent à gérer les relations spatiales complexes, par exemple la perception, le raisonnement ou l'interaction spatiale. Ces aspects critiques sont largement négligés par les benchmarks actuels en raison de leur conception d'invites courtes ou pauvres en informations. Dans cet article, nous présentons SpatialGenEval, un nouveau benchmark conçu pour évaluer systématiquement l'intelligence spatiale des modèles T2I, couvrant deux aspects clés : (1) SpatialGenEval comprend 1 230 invites longues et denses en informations couvrant 25 scènes du monde réel. Chaque invite intègre 10 sous-domaines spatiaux et 10 paires correspondantes de questions à choix multiples, allant de la position et de la disposition des objets à l'occlusion et la causalité. Notre évaluation approfondie de 21 modèles de pointe révèle que le raisonnement spatial d'ordre supérieur reste un goulot d'étranglement majeur. (2) Pour démontrer que l'utilité de notre conception riche en informations va au-delà d'une simple évaluation, nous construisons également le jeu de données SpatialT2I. Il contient 15 400 paires texte-image avec des invites réécrites pour garantir la cohérence de l'image tout en préservant la densité informationnelle. Les résultats du fine-tuning sur les modèles de fondation actuels (à savoir Stable Diffusion-XL, Uniworld-V1, OmniGen2) entraînent des gains de performance constants (+4,2 %, +5,7 %, +4,4 %) et des effets plus réalistes dans les relations spatiales, mettant en lumière un paradigme axé sur les données pour atteindre l'intelligence spatiale dans les modèles T2I.
English
Text-to-image (T2I) models have achieved remarkable success in generating high-fidelity images, but they often fail in handling complex spatial relationships, e.g., spatial perception, reasoning, or interaction. These critical aspects are largely overlooked by current benchmarks due to their short or information-sparse prompt design. In this paper, we introduce SpatialGenEval, a new benchmark designed to systematically evaluate the spatial intelligence of T2I models, covering two key aspects: (1) SpatialGenEval involves 1,230 long, information-dense prompts across 25 real-world scenes. Each prompt integrates 10 spatial sub-domains and corresponding 10 multi-choice question-answer pairs, ranging from object position and layout to occlusion and causality. Our extensive evaluation of 21 state-of-the-art models reveals that higher-order spatial reasoning remains a primary bottleneck. (2) To demonstrate that the utility of our information-dense design goes beyond simple evaluation, we also construct the SpatialT2I dataset. It contains 15,400 text-image pairs with rewritten prompts to ensure image consistency while preserving information density. Fine-tuned results on current foundation models (i.e., Stable Diffusion-XL, Uniworld-V1, OmniGen2) yield consistent performance gains (+4.2%, +5.7%, +4.4%) and more realistic effects in spatial relations, highlighting a data-centric paradigm to achieve spatial intelligence in T2I models.
PDF993January 31, 2026