Exploration de l'intelligence spatiale sous un angle génératif

Résumé

L'intelligence spatiale est essentielle pour les modèles de langage multimodaux de grande taille, mais les benchmarks actuels l'évaluent principalement sous l'angle de la compréhension. Nous examinons si les modèles génératifs modernes ou les modèles multimodaux unifiés possèdent également une intelligence spatiale générative (ISG), c'est-à-dire la capacité à respecter et à manipuler les contraintes spatiales 3D lors de la génération d'images, et si cette capacité peut être mesurée ou améliorée. Nous présentons GSI-Bench, le premier benchmark conçu pour quantifier l'ISG via l'édition d'images ancrée spatialement. Il se compose de deux éléments complémentaires : GSI-Real, un jeu de données réel de haute qualité construit via un pipeline de génération et de filtrage guidé par des priors 3D, et GSI-Syn, un benchmark synthétique à grande échelle avec des opérations spatiales contrôlables et un étiquetage entièrement automatisé. Associé à un protocole d'évaluation unifié, GSI-Bench permet une évaluation scalable et agnostique du modèle quant au respect des contraintes spatiales et à la fidélité de l'édition. Les expériences montrent que le fine-tuning de modèles multimodaux unifiés sur GSI-Syn apporte des gains substantiels tant sur les tâches synthétiques que réelles et, fait marquant, améliore également la compréhension spatiale en aval. Cela constitue la première preuve claire que l'entraînement génératif peut renforcer tangiblement le raisonnement spatial, établissant une nouvelle voie pour faire progresser l'intelligence spatiale dans les modèles multimodaux.

English

Spatial intelligence is essential for multimodal large language models, yet current benchmarks largely assess it only from an understanding perspective. We ask whether modern generative or unified multimodal models also possess generative spatial intelligence (GSI), the ability to respect and manipulate 3D spatial constraints during image generation, and whether such capability can be measured or improved. We introduce GSI-Bench, the first benchmark designed to quantify GSI through spatially grounded image editing. It consists of two complementary components: GSI-Real, a high-quality real-world dataset built via a 3D-prior-guided generation and filtering pipeline, and GSI-Syn, a large-scale synthetic benchmark with controllable spatial operations and fully automated labeling. Together with a unified evaluation protocol, GSI-Bench enables scalable, model-agnostic assessment of spatial compliance and editing fidelity. Experiments show that fine-tuning unified multimodal models on GSI-Syn yields substantial gains on both synthetic and real tasks and, strikingly, also improves downstream spatial understanding. This provides the first clear evidence that generative training can tangibly strengthen spatial reasoning, establishing a new pathway for advancing spatial intelligence in multimodal models.

Exploration de l'intelligence spatiale sous un angle génératif

Exploring Spatial Intelligence from a Generative Perspective

Résumé

Support