Euclides' Geschenk: Verbetering van Ruimtelijk Waarnemen en Redeneren in Visie-Taalmodellen via Geometrische Surrogaattaken
Euclid's Gift: Enhancing Spatial Perception and Reasoning in Vision-Language Models via Geometric Surrogate Tasks
September 29, 2025
Auteurs: Shijie Lian, Changti Wu, Laurence Tianruo Yang, Hang Yuan, Bin Yu, Lei Zhang, Kai Chen
cs.AI
Samenvatting
Ruimtelijke intelligentie omvat een rijk scala aan vaardigheden, waaronder het visualiseren en transformeren van vormen, het mentaal roteren van objecten, het beoordelen van relatieve posities en containment, en het schatten van numerositeit. Het blijft echter een kritieke en onopgeloste uitdaging voor Multimodale Grote Taalmodellen (MLLMs). Om deze kloof te overbruggen, stellen we voor om het oplossen van Euclidische meetkundeproblemen als een surrogaattaak te behandelen. Specifiek hebben we zorgvuldig een gecureerde multimodale dataset samengesteld, genaamd Euclid30K, die ongeveer 30K vlakke en ruimtelijke meetkundeproblemen bevat. Om het model in staat te stellen Euclidische principes uit deze meetkundeproblemen te verwerven en toe te passen, hebben we Group Relative Policy Optimization (GRPO) gebruikt om de Qwen2.5VL-familie en RoboBrain2.0-familie te finetunen, waardoor de modellen worden geïnspireerd om vormen te identificeren, te tellen, entiteiten te relateren en meerstaps deductief redeneren uit te voeren met behulp van Euclidische principes. Onze experimenten tonen aan dat de resulterende modellen aanzienlijke zero-shot verbeteringen behalen op vier ruimtelijke redeneerbenchmarks (Super-CLEVR, Omni3DBench, VSI-Bench en MindCube) zonder enige taakspecifieke aanpassingen. Opmerkelijk is dat na training op Euclid30K de gemiddelde VSI-Bench nauwkeurigheid van alle geëvalueerde modellen steeg van 34,5% naar 40,5%, een verbetering van 5,5 procentpunten. Onder hen behaalt RoboBrain2.0-Euclid-7B een nauwkeurigheid van 49,6%, waarmee het het vorige state-of-the-art model, Spatial-MLLM, overtreft. Voor zover wij weten, is dit de eerste systematische studie die aantoont dat geometrie-gerichte finetuning vision-language modellen breed overdraagbare ruimtelijke vaardigheden kan bieden. Code en de Euclid30K dataset zijn te vinden op https://zgca-ai4edu.github.io/Euclids_Gift.
English
Spatial intelligence spans a rich suite of abilities, including visualising
and transforming shapes, mentally rotating objects, judging relational
positions and containment, and estimating numerosity. However, it still remains
a critical unresolved challenge for Multimodal Large Language Models (MLLMs).To
fill this gap, we propose to treat Euclidean geometry problem-solving as a
surrogate task. Specifically, we meticulously constructed a curated multimodal
dataset, called Euclid30K, comprising approximately 30K plane and solid
geometry problems. To enable the model to acquire and apply Euclidean
principles from these geometry problems, we employed Group Relative Policy
Optimization (GRPO) to finetune the Qwen2.5VL family and RoboBrain2.0 family,
inspiring the models to identify shapes, count, and relate entities, and
perform multi-step deductive reasoning using Euclidean principles. Our
experiments demonstrate that the resulting models achieve substantial zero-shot
gains across four spatial reasoning benchmarks (Super-CLEVR, Omni3DBench,
VSI-Bench, and MindCube) without any task-specific adaptations. Notably, after
training on the Euclid30K, the mean VSI-Bench accuracy of all evaluated models
rose from 34.5% to 40.5%, improving by 5.5 percentage points. Among them,
RoboBrain2.0-Euclid-7B achieves 49.6\% accuracy, surpassing the previous
state-of-the-art model, Spatial-MLLM.To our knowledge, this is the first
systematic study showing that geometry-centric fine-tuning can confer
vision-language models with broadly transferable spatial skills. Code and
Euclid30K dataset can be found in https://zgca-ai4edu.github.io/Euclids_Gift.