모든 것이 제자리에: 텍스트-이미지 모델의 공간 지능 벤치마킹
Everything in Its Place: Benchmarking Spatial Intelligence of Text-to-Image Models
January 28, 2026
저자: Zengbin Wang, Xuecai Hu, Yong Wang, Feng Xiong, Man Zhang, Xiangxiang Chu
cs.AI
초록
텍스트-이미지(T2I) 모델은 높은 정밀도의 이미지를 생성하는 데 있어 뛰어난 성과를 보여왔지만, 공간 인지, 추론 또는 상호작용과 같은 복잡한 공간 관계를 처리하는 데는 종종 실패합니다. 이러한 중요한 측면들은 기존 벤치마크의 짧고 정보가 희소한 프롬프트 설계로 인해 크게 간과되어 왔습니다. 본 논문에서는 T2I 모델의 공간 지능을 체계적으로 평가하기 위한 새로운 벤치마크인 SpatialGenEval을 소개합니다. 이는 두 가지 핵심 측면을 다룹니다: (1) SpatialGenEval은 25개의 실제 장면에 걸쳐 1,230개의 길고 정보가 밀집된 프롬프트를 포함합니다. 각 프롬프트는 객체 위치 및 레이아웃부터 오클루전 및 인과관계에 이르기까지 10개의 공간 하위 영역과 이에 상응하는 10개의 객관식 질문-답변 쌍을 통합합니다. 21개의 최첨단 모델에 대한 광범위한 평가 결과, 고차원적인 공간 추론이 여전히 주요 병목 현상임을 확인했습니다. (2) 정보 밀집 설계의 유용성이 단순한 평가를 넘어선다는 것을 입증하기 위해 SpatialT2I 데이터셋도 구축했습니다. 이 데이터셋은 정보 밀집도를 유지하면서 이미지 일관성을 보장하도록 재구성된 프롬프트가 포함된 15,400개의 텍스트-이미지 쌍을 담고 있습니다. 현재의 파운데이션 모델(즉, Stable Diffusion-XL, Uniworld-V1, OmniGen2)에 대한 미세 조정 결과, 일관된 성능 향상(+4.2%, +5.7%, +4.4%)과 공간 관계에서 더 현실적인 효과를 보여주며, T2I 모델에서 공간 지능을 달성하기 위한 데이터 중심 패러다임의 중요성을 강조합니다.
English
Text-to-image (T2I) models have achieved remarkable success in generating high-fidelity images, but they often fail in handling complex spatial relationships, e.g., spatial perception, reasoning, or interaction. These critical aspects are largely overlooked by current benchmarks due to their short or information-sparse prompt design. In this paper, we introduce SpatialGenEval, a new benchmark designed to systematically evaluate the spatial intelligence of T2I models, covering two key aspects: (1) SpatialGenEval involves 1,230 long, information-dense prompts across 25 real-world scenes. Each prompt integrates 10 spatial sub-domains and corresponding 10 multi-choice question-answer pairs, ranging from object position and layout to occlusion and causality. Our extensive evaluation of 21 state-of-the-art models reveals that higher-order spatial reasoning remains a primary bottleneck. (2) To demonstrate that the utility of our information-dense design goes beyond simple evaluation, we also construct the SpatialT2I dataset. It contains 15,400 text-image pairs with rewritten prompts to ensure image consistency while preserving information density. Fine-tuned results on current foundation models (i.e., Stable Diffusion-XL, Uniworld-V1, OmniGen2) yield consistent performance gains (+4.2%, +5.7%, +4.4%) and more realistic effects in spatial relations, highlighting a data-centric paradigm to achieve spatial intelligence in T2I models.