Erforschung der räumlichen Intelligenz aus einer generativen Perspektive

Zusammenfassung

Räumliche Intelligenz ist für multimodale große Sprachmodelle unerlässlich, doch aktuelle Benchmarks bewerten sie größtenteils nur aus einer Verständnisperspektive. Wir untersuchen, ob moderne generative oder vereinheitlichte multimodale Modelle ebenfalls über generative räumliche Intelligenz (GSI) verfügen – die Fähigkeit, 3D-Raumbedingungen bei der Bildgenerierung zu berücksichtigen und zu manipulieren – und ob sich diese Fähigkeit messen oder verbessern lässt. Wir stellen GSI-Bench vor, den ersten Benchmark, der GSI durch räumlich fundierte Bildbearbeitung quantifiziert. Er besteht aus zwei komplementären Komponenten: GSI-Real, einem hochwertigen Realwelt-Datensatz, der über eine 3D-Prior-gesteuerte Generierungs- und Filterpipeline erstellt wurde, und GSI-Syn, einem groß angelegten synthetischen Benchmark mit kontrollierbaren räumlichen Operationen und vollständig automatisierter Beschriftung. Zusammen mit einem einheitlichen Auswertungsprotokoll ermöglicht GSI-Bench eine skalierbare, modellunabhängige Bewertung der räumlichen Konformität und Bearbeitungstreue. Experimente zeigen, dass das Fine-Tuning vereinheitlichter multimodaler Modelle auf GSI-Syn zu erheblichen Verbesserungen sowohl bei synthetischen als auch bei realen Aufgaben führt und, bemerkenswerterweise, auch das nachgelagerte räumliche Verständnis verbessert. Dies liefert den ersten klaren Beleg dafür, dass generatives Training die räumliche Denkfähigkeit spürbar stärken kann, und eröffnet einen neuen Weg zur Weiterentwicklung der räumlichen Intelligenz in multimodalen Modellen.

English

Spatial intelligence is essential for multimodal large language models, yet current benchmarks largely assess it only from an understanding perspective. We ask whether modern generative or unified multimodal models also possess generative spatial intelligence (GSI), the ability to respect and manipulate 3D spatial constraints during image generation, and whether such capability can be measured or improved. We introduce GSI-Bench, the first benchmark designed to quantify GSI through spatially grounded image editing. It consists of two complementary components: GSI-Real, a high-quality real-world dataset built via a 3D-prior-guided generation and filtering pipeline, and GSI-Syn, a large-scale synthetic benchmark with controllable spatial operations and fully automated labeling. Together with a unified evaluation protocol, GSI-Bench enables scalable, model-agnostic assessment of spatial compliance and editing fidelity. Experiments show that fine-tuning unified multimodal models on GSI-Syn yields substantial gains on both synthetic and real tasks and, strikingly, also improves downstream spatial understanding. This provides the first clear evidence that generative training can tangibly strengthen spatial reasoning, establishing a new pathway for advancing spatial intelligence in multimodal models.

Erforschung der räumlichen Intelligenz aus einer generativen Perspektive

Exploring Spatial Intelligence from a Generative Perspective

Zusammenfassung

Support