Le Don d'Euclide : Amélioration de la perception spatiale et du raisonnement dans les modèles vision-langage grâce à des tâches substitutives géométriques
Euclid's Gift: Enhancing Spatial Perception and Reasoning in Vision-Language Models via Geometric Surrogate Tasks
September 29, 2025
papers.authors: Shijie Lian, Changti Wu, Laurence Tianruo Yang, Hang Yuan, Bin Yu, Lei Zhang, Kai Chen
cs.AI
papers.abstract
L'intelligence spatiale englobe un ensemble riche de capacités, incluant la visualisation et la transformation de formes, la rotation mentale d'objets, l'évaluation des positions relationnelles et des contenances, ainsi que l'estimation de la numérosité. Cependant, cela reste un défi critique non résolu pour les Modèles de Langage Multimodaux de Grande Taille (MLLMs). Pour combler cette lacune, nous proposons de traiter la résolution de problèmes de géométrie euclidienne comme une tâche substitutive. Plus précisément, nous avons méticuleusement construit un ensemble de données multimodales soigneusement sélectionné, appelé Euclid30K, comprenant environ 30 000 problèmes de géométrie plane et solide. Pour permettre au modèle d'acquérir et d'appliquer les principes euclidiens à partir de ces problèmes de géométrie, nous avons utilisé l'Optimisation de Politique Relative par Groupe (GRPO) pour affiner les familles Qwen2.5VL et RoboBrain2.0, incitant les modèles à identifier des formes, compter, relier des entités et effectuer un raisonnement déductif en plusieurs étapes en utilisant les principes euclidiens. Nos expériences démontrent que les modèles résultants obtiennent des gains substantiels en zéro-shot sur quatre benchmarks de raisonnement spatial (Super-CLEVR, Omni3DBench, VSI-Bench et MindCube) sans aucune adaptation spécifique à la tâche. Notamment, après l'entraînement sur Euclid30K, la précision moyenne sur VSI-Bench de tous les modèles évalués est passée de 34,5 % à 40,5 %, soit une amélioration de 5,5 points de pourcentage. Parmi eux, RoboBrain2.0-Euclid-7B atteint une précision de 49,6 %, surpassant le précédent modèle de pointe, Spatial-MLLM. À notre connaissance, il s'agit de la première étude systématique montrant qu'un affinage centré sur la géométrie peut conférer aux modèles vision-langage des compétences spatiales largement transférables. Le code et l'ensemble de données Euclid30K sont disponibles à l'adresse suivante : https://zgca-ai4edu.github.io/Euclids_Gift.
English
Spatial intelligence spans a rich suite of abilities, including visualising
and transforming shapes, mentally rotating objects, judging relational
positions and containment, and estimating numerosity. However, it still remains
a critical unresolved challenge for Multimodal Large Language Models (MLLMs).To
fill this gap, we propose to treat Euclidean geometry problem-solving as a
surrogate task. Specifically, we meticulously constructed a curated multimodal
dataset, called Euclid30K, comprising approximately 30K plane and solid
geometry problems. To enable the model to acquire and apply Euclidean
principles from these geometry problems, we employed Group Relative Policy
Optimization (GRPO) to finetune the Qwen2.5VL family and RoboBrain2.0 family,
inspiring the models to identify shapes, count, and relate entities, and
perform multi-step deductive reasoning using Euclidean principles. Our
experiments demonstrate that the resulting models achieve substantial zero-shot
gains across four spatial reasoning benchmarks (Super-CLEVR, Omni3DBench,
VSI-Bench, and MindCube) without any task-specific adaptations. Notably, after
training on the Euclid30K, the mean VSI-Bench accuracy of all evaluated models
rose from 34.5% to 40.5%, improving by 5.5 percentage points. Among them,
RoboBrain2.0-Euclid-7B achieves 49.6\% accuracy, surpassing the previous
state-of-the-art model, Spatial-MLLM.To our knowledge, this is the first
systematic study showing that geometry-centric fine-tuning can confer
vision-language models with broadly transferable spatial skills. Code and
Euclid30K dataset can be found in https://zgca-ai4edu.github.io/Euclids_Gift.