Alles op Zijn Plek: Een Benchmark voor Ruimtelijk Inzicht van Tekst-naar-Beeldmodellen

Samenvatting

Text-to-image (T2I)-modellen hebben opmerkelijke successen geboekt in het genereren van beelden van hoge kwaliteit, maar ze falen vaak in het verwerken van complexe ruimtelijke relaties, zoals ruimtelijk perceptie, redeneren of interactie. Deze kritieke aspecten worden grotendeels over het hoofd gezien door huidige benchmarks vanwege hun korte of informatie-arme promptontwerp. In dit artikel introduceren we SpatialGenEval, een nieuwe benchmark die is ontworpen om de ruimtelijke intelligentie van T2I-modellen systematisch te evalueren, waarbij twee belangrijke aspecten worden belicht: (1) SpatialGenEval omvat 1.230 lange, informatie-dichte prompts verspreid over 25 realistische scènes. Elke prompt integreert 10 ruimtelijke subdomeinen en bijbehorende 10 meerkeuzevraag-antwoordparen, variërend van objectpositie en lay-out tot occlusie en causaliteit. Onze uitgebreide evaluatie van 21 state-of-the-art modellen toont aan dat hogere-orde ruimtelijk redeneren een primair knelpunt blijft. (2) Om aan te tonen dat de bruikbaarheid van ons informatie-dichte ontwerp verder reikt dan eenvoudige evaluatie, construeren we ook de SpatialT2I-dataset. Deze bevat 15.400 tekst-beeldparen met herschreven prompts om beeldconsistentie te waarborgen terwijl de informatiedichtheid behouden blijft. Gefinetunede resultaten op huidige foundationmodellen (zoals Stable Diffusion-XL, Uniworld-V1, OmniGen2) leveren consistente prestatieverbeteringen op (+4,2%, +5,7%, +4,4%) en realistischer effecten in ruimtelijke relaties, wat een data-centrisch paradigma benadrukt om ruimtelijke intelligentie in T2I-modellen te bereiken.

English

Text-to-image (T2I) models have achieved remarkable success in generating high-fidelity images, but they often fail in handling complex spatial relationships, e.g., spatial perception, reasoning, or interaction. These critical aspects are largely overlooked by current benchmarks due to their short or information-sparse prompt design. In this paper, we introduce SpatialGenEval, a new benchmark designed to systematically evaluate the spatial intelligence of T2I models, covering two key aspects: (1) SpatialGenEval involves 1,230 long, information-dense prompts across 25 real-world scenes. Each prompt integrates 10 spatial sub-domains and corresponding 10 multi-choice question-answer pairs, ranging from object position and layout to occlusion and causality. Our extensive evaluation of 21 state-of-the-art models reveals that higher-order spatial reasoning remains a primary bottleneck. (2) To demonstrate that the utility of our information-dense design goes beyond simple evaluation, we also construct the SpatialT2I dataset. It contains 15,400 text-image pairs with rewritten prompts to ensure image consistency while preserving information density. Fine-tuned results on current foundation models (i.e., Stable Diffusion-XL, Uniworld-V1, OmniGen2) yield consistent performance gains (+4.2%, +5.7%, +4.4%) and more realistic effects in spatial relations, highlighting a data-centric paradigm to achieve spatial intelligence in T2I models.

Alles op Zijn Plek: Een Benchmark voor Ruimtelijk Inzicht van Tekst-naar-Beeldmodellen

Everything in Its Place: Benchmarking Spatial Intelligence of Text-to-Image Models

Samenvatting

Support