Исследование пространственного интеллекта с генеративной точки зрения

Аннотация

Пространственный интеллект крайне важен для мультимодальных больших языковых моделей, однако современные бенчмарки в основном оценивают его лишь с точки зрения понимания. Мы исследуем, обладают ли современные генеративные или единые мультимодальные модели также генеративным пространственным интеллектом (ГПИ) — способностью учитывать и манипулировать трехмерными пространственными ограничениями в процессе генерации изображений — и можно ли измерить или улучшить такую способность. Мы представляем GSI-Bench, первый бенчмарк, предназначенный для количественной оценки ГПИ через пространственно обоснованное редактирование изображений. Он состоит из двух взаимодополняющих компонентов: GSI-Real — высококачественного набора реальных данных, созданного с помощью конвейера генерации и фильтрации на основе 3D-приора, и GSI-Syn — масштабируемого синтетического бенчмарка с контролируемыми пространственными операциями и полностью автоматизированной разметкой. Вместе с унифицированным протоколом оценки GSI-Bench позволяет проводить масштабируемую, модельно-независимую оценку соответствия пространственным ограничениям и точности редактирования. Эксперименты показывают, что дообучение единых мультимодальных моделей на GSI-Syn дает существенный прирост качества как на синтетических, так и на реальных задачах и, что примечательно, также улучшает последующее пространственное понимание. Это представляет собой первое четкое свидетельство того, что генеративное обучение может ощутимо усилить пространственные рассуждения, устанавливая новый путь для развития пространственного интеллекта в мультимодальных моделях.

English

Spatial intelligence is essential for multimodal large language models, yet current benchmarks largely assess it only from an understanding perspective. We ask whether modern generative or unified multimodal models also possess generative spatial intelligence (GSI), the ability to respect and manipulate 3D spatial constraints during image generation, and whether such capability can be measured or improved. We introduce GSI-Bench, the first benchmark designed to quantify GSI through spatially grounded image editing. It consists of two complementary components: GSI-Real, a high-quality real-world dataset built via a 3D-prior-guided generation and filtering pipeline, and GSI-Syn, a large-scale synthetic benchmark with controllable spatial operations and fully automated labeling. Together with a unified evaluation protocol, GSI-Bench enables scalable, model-agnostic assessment of spatial compliance and editing fidelity. Experiments show that fine-tuning unified multimodal models on GSI-Syn yields substantial gains on both synthetic and real tasks and, strikingly, also improves downstream spatial understanding. This provides the first clear evidence that generative training can tangibly strengthen spatial reasoning, establishing a new pathway for advancing spatial intelligence in multimodal models.

Исследование пространственного интеллекта с генеративной точки зрения

Exploring Spatial Intelligence from a Generative Perspective

Аннотация

Support