Het Verkennen van Ruimtelijke Intelligentie vanuit een Generatief Perspectief

Samenvatting

Ruimtelijke intelligentie is essentieel voor multimodale grote taalmodellen, maar huidige benchmarks beoordelen deze voornamelijk vanuit een begripsperspectief. Wij onderzoeken of moderne generatieve of unificerende multimodale modellen eveneens beschikken over generatieve ruimtelijke intelligentie (GSI) – het vermogen om 3D-ruimtelijke beperkingen te respecteren en te manipuleren tijdens beeldgeneratie – en of dergelijke capaciteit gemeten of verbeterd kan worden. Wij introduceren GSI-Bench, de eerste benchmark die is ontworpen om GSI te kwantificeren via ruimtelijk verankerde beeldbewerking. Deze bestaat uit twee complementaire componenten: GSI-Real, een hoogwaardige real-world dataset opgebouwd via een op 3D-principes gebaseerd generatie- en filterproces, en GSI-Syn, een grootschalige synthetische benchmark met controleerbare ruimtelijke operaties en volledig geautomatiseerde labeling. In combinatie met een uniform evaluatieprotocol stelt GSI-Bench schaalbare, model-agnostische beoordeling van ruimtelijke naleving en bewerkingsnauwkeurigheid mogelijk. Experimenten tonen aan dat fine-tuning van unificerende multimodale modellen op GSI-Syn aanzienlijke verbeteringen oplevert voor zowel synthetische als real-world taken en, opvallend genoeg, ook het ruimtelijk begrip voor downstreamtaken verbetert. Dit levert het eerste duidelijke bewijs dat generatieve training ruimtelijk redeneren tastbaar kan versterken, waarmee een nieuw pad wordt gevestigd voor de vooruitgang van ruimtelijke intelligentie in multimodale modellen.

English

Spatial intelligence is essential for multimodal large language models, yet current benchmarks largely assess it only from an understanding perspective. We ask whether modern generative or unified multimodal models also possess generative spatial intelligence (GSI), the ability to respect and manipulate 3D spatial constraints during image generation, and whether such capability can be measured or improved. We introduce GSI-Bench, the first benchmark designed to quantify GSI through spatially grounded image editing. It consists of two complementary components: GSI-Real, a high-quality real-world dataset built via a 3D-prior-guided generation and filtering pipeline, and GSI-Syn, a large-scale synthetic benchmark with controllable spatial operations and fully automated labeling. Together with a unified evaluation protocol, GSI-Bench enables scalable, model-agnostic assessment of spatial compliance and editing fidelity. Experiments show that fine-tuning unified multimodal models on GSI-Syn yields substantial gains on both synthetic and real tasks and, strikingly, also improves downstream spatial understanding. This provides the first clear evidence that generative training can tangibly strengthen spatial reasoning, establishing a new pathway for advancing spatial intelligence in multimodal models.

Het Verkennen van Ruimtelijke Intelligentie vanuit een Generatief Perspectief

Exploring Spatial Intelligence from a Generative Perspective

Samenvatting

Support