ChatPaper.aiChatPaper

Alles an seinem Platz: Ein Benchmark für die räumliche Intelligenz von Text-zu-Bild-Modellen

Everything in Its Place: Benchmarking Spatial Intelligence of Text-to-Image Models

January 28, 2026
papers.authors: Zengbin Wang, Xuecai Hu, Yong Wang, Feng Xiong, Man Zhang, Xiangxiang Chu
cs.AI

papers.abstract

Text-to-Image (T2I)-Modelle haben bemerkenswerte Erfolge bei der Erstellung hochwertiger Bilder erzielt, scheitern jedoch häufig an der Darstellung komplexer räumlicher Beziehungen, wie z.B. räumlicher Wahrnehmung, Schlussfolgerungen oder Interaktionen. Diese kritischen Aspekte werden von aktuellen Benchmarks aufgrund ihrer kurzen oder informationsarmen Prompt-Gestaltung weitgehend vernachlässigt. In diesem Beitrag stellen wir SpatialGenEval vor, einen neuen Benchmark, der entwickelt wurde, um die räumliche Intelligenz von T2I-Modellen systematisch zu bewerten. Er umfasst zwei Schlüsselaspekte: (1) SpatialGenEval beinhaltet 1.230 lange, informationsdense Prompts aus 25 realen Szenarien. Jeder Prompt integriert 10 räumliche Teilbereiche und entsprechende 10 Multiple-Choice-Frage-Antwort-Paare, die von Objektposition und -anordnung bis hin zu Verdeckung und Kausalität reichen. Unsere umfassende Auswertung von 21 modernsten Modellen zeigt, dass höherwertiges räumliches Schlussfolgern ein primärer Engpass bleibt. (2) Um zu demonstrieren, dass der Nutzen unseres informationsdichten Designs über eine einfache Bewertung hinausgeht, erstellen wir außerdem den SpatialT2I-Datensatz. Dieser enthält 15.400 Text-Bild-Paare mit umgeschriebenen Prompts, um Bildkonsistenz bei gleichzeitiger Beibehaltung der Informationsdichte sicherzustellen. Feinabstimmungsergebnisse auf aktuellen Foundation-Modellen (d.h. Stable Diffusion-XL, Uniworld-V1, OmniGen2) führen zu konsistenten Leistungssteigerungen (+4,2 %, +5,7 %, +4,4 %) und realistischeren Effekten bei räumlichen Beziehungen, was einen datenzentrierten Paradigmenwechsel zur Erreichung räumlicher Intelligenz in T2I-Modellen aufzeigt.
English
Text-to-image (T2I) models have achieved remarkable success in generating high-fidelity images, but they often fail in handling complex spatial relationships, e.g., spatial perception, reasoning, or interaction. These critical aspects are largely overlooked by current benchmarks due to their short or information-sparse prompt design. In this paper, we introduce SpatialGenEval, a new benchmark designed to systematically evaluate the spatial intelligence of T2I models, covering two key aspects: (1) SpatialGenEval involves 1,230 long, information-dense prompts across 25 real-world scenes. Each prompt integrates 10 spatial sub-domains and corresponding 10 multi-choice question-answer pairs, ranging from object position and layout to occlusion and causality. Our extensive evaluation of 21 state-of-the-art models reveals that higher-order spatial reasoning remains a primary bottleneck. (2) To demonstrate that the utility of our information-dense design goes beyond simple evaluation, we also construct the SpatialT2I dataset. It contains 15,400 text-image pairs with rewritten prompts to ensure image consistency while preserving information density. Fine-tuned results on current foundation models (i.e., Stable Diffusion-XL, Uniworld-V1, OmniGen2) yield consistent performance gains (+4.2%, +5.7%, +4.4%) and more realistic effects in spatial relations, highlighting a data-centric paradigm to achieve spatial intelligence in T2I models.
PDF993January 31, 2026