Le Don d'Euclide : Amélioration de la perception spatiale et du raisonnement dans les modèles vision-langage grâce à des tâches substitutives géométriques

papers.abstract

L'intelligence spatiale englobe un ensemble riche de capacités, incluant la visualisation et la transformation de formes, la rotation mentale d'objets, l'évaluation des positions relationnelles et des contenances, ainsi que l'estimation de la numérosité. Cependant, cela reste un défi critique non résolu pour les Modèles de Langage Multimodaux de Grande Taille (MLLMs). Pour combler cette lacune, nous proposons de traiter la résolution de problèmes de géométrie euclidienne comme une tâche substitutive. Plus précisément, nous avons méticuleusement construit un ensemble de données multimodales soigneusement sélectionné, appelé Euclid30K, comprenant environ 30 000 problèmes de géométrie plane et solide. Pour permettre au modèle d'acquérir et d'appliquer les principes euclidiens à partir de ces problèmes de géométrie, nous avons utilisé l'Optimisation de Politique Relative par Groupe (GRPO) pour affiner les familles Qwen2.5VL et RoboBrain2.0, incitant les modèles à identifier des formes, compter, relier des entités et effectuer un raisonnement déductif en plusieurs étapes en utilisant les principes euclidiens. Nos expériences démontrent que les modèles résultants obtiennent des gains substantiels en zéro-shot sur quatre benchmarks de raisonnement spatial (Super-CLEVR, Omni3DBench, VSI-Bench et MindCube) sans aucune adaptation spécifique à la tâche. Notamment, après l'entraînement sur Euclid30K, la précision moyenne sur VSI-Bench de tous les modèles évalués est passée de 34,5 % à 40,5 %, soit une amélioration de 5,5 points de pourcentage. Parmi eux, RoboBrain2.0-Euclid-7B atteint une précision de 49,6 %, surpassant le précédent modèle de pointe, Spatial-MLLM. À notre connaissance, il s'agit de la première étude systématique montrant qu'un affinage centré sur la géométrie peut conférer aux modèles vision-langage des compétences spatiales largement transférables. Le code et l'ensemble de données Euclid30K sont disponibles à l'adresse suivante : https://zgca-ai4edu.github.io/Euclids_Gift.

English

Spatial intelligence spans a rich suite of abilities, including visualising and transforming shapes, mentally rotating objects, judging relational positions and containment, and estimating numerosity. However, it still remains a critical unresolved challenge for Multimodal Large Language Models (MLLMs).To fill this gap, we propose to treat Euclidean geometry problem-solving as a surrogate task. Specifically, we meticulously constructed a curated multimodal dataset, called Euclid30K, comprising approximately 30K plane and solid geometry problems. To enable the model to acquire and apply Euclidean principles from these geometry problems, we employed Group Relative Policy Optimization (GRPO) to finetune the Qwen2.5VL family and RoboBrain2.0 family, inspiring the models to identify shapes, count, and relate entities, and perform multi-step deductive reasoning using Euclidean principles. Our experiments demonstrate that the resulting models achieve substantial zero-shot gains across four spatial reasoning benchmarks (Super-CLEVR, Omni3DBench, VSI-Bench, and MindCube) without any task-specific adaptations. Notably, after training on the Euclid30K, the mean VSI-Bench accuracy of all evaluated models rose from 34.5% to 40.5%, improving by 5.5 percentage points. Among them, RoboBrain2.0-Euclid-7B achieves 49.6\% accuracy, surpassing the previous state-of-the-art model, Spatial-MLLM.To our knowledge, this is the first systematic study showing that geometry-centric fine-tuning can confer vision-language models with broadly transferable spatial skills. Code and Euclid30K dataset can be found in https://zgca-ai4edu.github.io/Euclids_Gift.

Le Don d'Euclide : Amélioration de la perception spatiale et du raisonnement dans les modèles vision-langage grâce à des tâches substitutives géométriques

Euclid's Gift: Enhancing Spatial Perception and Reasoning in Vision-Language Models via Geometric Surrogate Tasks

papers.abstract

Support