ChatPaper.aiChatPaper

El Legado de Euclides: Mejorando la Percepción Espacial y el Razonamiento en Modelos de Visión-Lenguaje mediante Tareas Suplentes Geométricas

Euclid's Gift: Enhancing Spatial Perception and Reasoning in Vision-Language Models via Geometric Surrogate Tasks

September 29, 2025
Autores: Shijie Lian, Changti Wu, Laurence Tianruo Yang, Hang Yuan, Bin Yu, Lei Zhang, Kai Chen
cs.AI

Resumen

La inteligencia espacial abarca un amplio conjunto de habilidades, incluyendo la visualización y transformación de formas, la rotación mental de objetos, la evaluación de posiciones relacionales y contención, y la estimación de numerosidad. Sin embargo, sigue siendo un desafío crítico sin resolver para los Modelos de Lenguaje Multimodal de Gran Escala (MLLMs). Para abordar esta brecha, proponemos tratar la resolución de problemas de geometría euclidiana como una tarea sustitutiva. Específicamente, construimos meticulosamente un conjunto de datos multimodal curado, llamado Euclid30K, que comprende aproximadamente 30K problemas de geometría plana y sólida. Para permitir que el modelo adquiera y aplique principios euclidianos a partir de estos problemas de geometría, empleamos la Optimización de Política Relativa de Grupo (GRPO) para ajustar las familias Qwen2.5VL y RoboBrain2.0, inspirando a los modelos a identificar formas, contar y relacionar entidades, y realizar razonamientos deductivos de múltiples pasos utilizando principios euclidianos. Nuestros experimentos demuestran que los modelos resultantes logran ganancias sustanciales en pruebas de razonamiento espacial (Super-CLEVR, Omni3DBench, VSI-Bench y MindCube) sin adaptaciones específicas para cada tarea. Notablemente, después del entrenamiento en Euclid30K, la precisión media en VSI-Bench de todos los modelos evaluados aumentó de 34.5% a 40.5%, mejorando en 5.5 puntos porcentuales. Entre ellos, RoboBrain2.0-Euclid-7B alcanza una precisión del 49.6%, superando al modelo anteriormente más avanzado, Spatial-MLLM. Hasta donde sabemos, este es el primer estudio sistemático que muestra que el ajuste fino centrado en la geometría puede dotar a los modelos de visión-lenguaje con habilidades espaciales ampliamente transferibles. El código y el conjunto de datos Euclid30K pueden encontrarse en https://zgca-ai4edu.github.io/Euclids_Gift.
English
Spatial intelligence spans a rich suite of abilities, including visualising and transforming shapes, mentally rotating objects, judging relational positions and containment, and estimating numerosity. However, it still remains a critical unresolved challenge for Multimodal Large Language Models (MLLMs).To fill this gap, we propose to treat Euclidean geometry problem-solving as a surrogate task. Specifically, we meticulously constructed a curated multimodal dataset, called Euclid30K, comprising approximately 30K plane and solid geometry problems. To enable the model to acquire and apply Euclidean principles from these geometry problems, we employed Group Relative Policy Optimization (GRPO) to finetune the Qwen2.5VL family and RoboBrain2.0 family, inspiring the models to identify shapes, count, and relate entities, and perform multi-step deductive reasoning using Euclidean principles. Our experiments demonstrate that the resulting models achieve substantial zero-shot gains across four spatial reasoning benchmarks (Super-CLEVR, Omni3DBench, VSI-Bench, and MindCube) without any task-specific adaptations. Notably, after training on the Euclid30K, the mean VSI-Bench accuracy of all evaluated models rose from 34.5% to 40.5%, improving by 5.5 percentage points. Among them, RoboBrain2.0-Euclid-7B achieves 49.6\% accuracy, surpassing the previous state-of-the-art model, Spatial-MLLM.To our knowledge, this is the first systematic study showing that geometry-centric fine-tuning can confer vision-language models with broadly transferable spatial skills. Code and Euclid30K dataset can be found in https://zgca-ai4edu.github.io/Euclids_Gift.
PDF153September 30, 2025