El Legado de Euclides: Mejorando la Percepción Espacial y el Razonamiento en Modelos de Visión-Lenguaje mediante Tareas Suplentes Geométricas
Euclid's Gift: Enhancing Spatial Perception and Reasoning in Vision-Language Models via Geometric Surrogate Tasks
September 29, 2025
Autores: Shijie Lian, Changti Wu, Laurence Tianruo Yang, Hang Yuan, Bin Yu, Lei Zhang, Kai Chen
cs.AI
Resumen
La inteligencia espacial abarca un amplio conjunto de habilidades, incluyendo la visualización y transformación de formas, la rotación mental de objetos, la evaluación de posiciones relacionales y contención, y la estimación de numerosidad. Sin embargo, sigue siendo un desafío crítico sin resolver para los Modelos de Lenguaje Multimodal de Gran Escala (MLLMs). Para abordar esta brecha, proponemos tratar la resolución de problemas de geometría euclidiana como una tarea sustitutiva. Específicamente, construimos meticulosamente un conjunto de datos multimodal curado, llamado Euclid30K, que comprende aproximadamente 30K problemas de geometría plana y sólida. Para permitir que el modelo adquiera y aplique principios euclidianos a partir de estos problemas de geometría, empleamos la Optimización de Política Relativa de Grupo (GRPO) para ajustar las familias Qwen2.5VL y RoboBrain2.0, inspirando a los modelos a identificar formas, contar y relacionar entidades, y realizar razonamientos deductivos de múltiples pasos utilizando principios euclidianos. Nuestros experimentos demuestran que los modelos resultantes logran ganancias sustanciales en pruebas de razonamiento espacial (Super-CLEVR, Omni3DBench, VSI-Bench y MindCube) sin adaptaciones específicas para cada tarea. Notablemente, después del entrenamiento en Euclid30K, la precisión media en VSI-Bench de todos los modelos evaluados aumentó de 34.5% a 40.5%, mejorando en 5.5 puntos porcentuales. Entre ellos, RoboBrain2.0-Euclid-7B alcanza una precisión del 49.6%, superando al modelo anteriormente más avanzado, Spatial-MLLM. Hasta donde sabemos, este es el primer estudio sistemático que muestra que el ajuste fino centrado en la geometría puede dotar a los modelos de visión-lenguaje con habilidades espaciales ampliamente transferibles. El código y el conjunto de datos Euclid30K pueden encontrarse en https://zgca-ai4edu.github.io/Euclids_Gift.
English
Spatial intelligence spans a rich suite of abilities, including visualising
and transforming shapes, mentally rotating objects, judging relational
positions and containment, and estimating numerosity. However, it still remains
a critical unresolved challenge for Multimodal Large Language Models (MLLMs).To
fill this gap, we propose to treat Euclidean geometry problem-solving as a
surrogate task. Specifically, we meticulously constructed a curated multimodal
dataset, called Euclid30K, comprising approximately 30K plane and solid
geometry problems. To enable the model to acquire and apply Euclidean
principles from these geometry problems, we employed Group Relative Policy
Optimization (GRPO) to finetune the Qwen2.5VL family and RoboBrain2.0 family,
inspiring the models to identify shapes, count, and relate entities, and
perform multi-step deductive reasoning using Euclidean principles. Our
experiments demonstrate that the resulting models achieve substantial zero-shot
gains across four spatial reasoning benchmarks (Super-CLEVR, Omni3DBench,
VSI-Bench, and MindCube) without any task-specific adaptations. Notably, after
training on the Euclid30K, the mean VSI-Bench accuracy of all evaluated models
rose from 34.5% to 40.5%, improving by 5.5 percentage points. Among them,
RoboBrain2.0-Euclid-7B achieves 49.6\% accuracy, surpassing the previous
state-of-the-art model, Spatial-MLLM.To our knowledge, this is the first
systematic study showing that geometry-centric fine-tuning can confer
vision-language models with broadly transferable spatial skills. Code and
Euclid30K dataset can be found in https://zgca-ai4edu.github.io/Euclids_Gift.