Erforschung der räumlichen Intelligenz aus einer generativen Perspektive
Exploring Spatial Intelligence from a Generative Perspective
April 22, 2026
Autoren: Muzhi Zhu, Shunyao Jiang, Huanyi Zheng, Zekai Luo, Hao Zhong, Anzhou Li, Kaijun Wang, Jintao Rong, Yang Liu, Hao Chen, Tao Lin, Chunhua Shen
cs.AI
Zusammenfassung
Räumliche Intelligenz ist für multimodale große Sprachmodelle unerlässlich, doch aktuelle Benchmarks bewerten sie größtenteils nur aus einer Verständnisperspektive. Wir untersuchen, ob moderne generative oder vereinheitlichte multimodale Modelle ebenfalls über generative räumliche Intelligenz (GSI) verfügen – die Fähigkeit, 3D-Raumbedingungen bei der Bildgenerierung zu berücksichtigen und zu manipulieren – und ob sich diese Fähigkeit messen oder verbessern lässt. Wir stellen GSI-Bench vor, den ersten Benchmark, der GSI durch räumlich fundierte Bildbearbeitung quantifiziert. Er besteht aus zwei komplementären Komponenten: GSI-Real, einem hochwertigen Realwelt-Datensatz, der über eine 3D-Prior-gesteuerte Generierungs- und Filterpipeline erstellt wurde, und GSI-Syn, einem groß angelegten synthetischen Benchmark mit kontrollierbaren räumlichen Operationen und vollständig automatisierter Beschriftung. Zusammen mit einem einheitlichen Auswertungsprotokoll ermöglicht GSI-Bench eine skalierbare, modellunabhängige Bewertung der räumlichen Konformität und Bearbeitungstreue. Experimente zeigen, dass das Fine-Tuning vereinheitlichter multimodaler Modelle auf GSI-Syn zu erheblichen Verbesserungen sowohl bei synthetischen als auch bei realen Aufgaben führt und, bemerkenswerterweise, auch das nachgelagerte räumliche Verständnis verbessert. Dies liefert den ersten klaren Beleg dafür, dass generatives Training die räumliche Denkfähigkeit spürbar stärken kann, und eröffnet einen neuen Weg zur Weiterentwicklung der räumlichen Intelligenz in multimodalen Modellen.
English
Spatial intelligence is essential for multimodal large language models, yet current benchmarks largely assess it only from an understanding perspective. We ask whether modern generative or unified multimodal models also possess generative spatial intelligence (GSI), the ability to respect and manipulate 3D spatial constraints during image generation, and whether such capability can be measured or improved. We introduce GSI-Bench, the first benchmark designed to quantify GSI through spatially grounded image editing. It consists of two complementary components: GSI-Real, a high-quality real-world dataset built via a 3D-prior-guided generation and filtering pipeline, and GSI-Syn, a large-scale synthetic benchmark with controllable spatial operations and fully automated labeling. Together with a unified evaluation protocol, GSI-Bench enables scalable, model-agnostic assessment of spatial compliance and editing fidelity. Experiments show that fine-tuning unified multimodal models on GSI-Syn yields substantial gains on both synthetic and real tasks and, strikingly, also improves downstream spatial understanding. This provides the first clear evidence that generative training can tangibly strengthen spatial reasoning, establishing a new pathway for advancing spatial intelligence in multimodal models.