ChatPaper.aiChatPaper

O Presente de Euclides: Aprimorando a Percepção Espacial e o Raciocínio em Modelos Visão-Linguagem por meio de Tarefas Surrogadas Geométricas

Euclid's Gift: Enhancing Spatial Perception and Reasoning in Vision-Language Models via Geometric Surrogate Tasks

September 29, 2025
Autores: Shijie Lian, Changti Wu, Laurence Tianruo Yang, Hang Yuan, Bin Yu, Lei Zhang, Kai Chen
cs.AI

Resumo

A inteligência espacial abrange um rico conjunto de habilidades, incluindo a visualização e transformação de formas, a rotação mental de objetos, a avaliação de posições e contenções relacionais, e a estimativa de numerosidade. No entanto, ela ainda permanece um desafio crítico e não resolvido para os Modelos de Linguagem Multimodais de Grande Escala (MLLMs). Para preencher essa lacuna, propomos tratar a resolução de problemas de geometria euclidiana como uma tarefa substituta. Especificamente, construímos meticulosamente um conjunto de dados multimodal curado, chamado Euclid30K, composto por aproximadamente 30 mil problemas de geometria plana e sólida. Para permitir que o modelo adquira e aplique princípios euclidianos a partir desses problemas de geometria, empregamos a Otimização de Política Relativa de Grupo (GRPO) para ajustar as famílias Qwen2.5VL e RoboBrain2.0, inspirando os modelos a identificar formas, contar e relacionar entidades, e realizar raciocínio dedutivo em múltiplos passos usando princípios euclidianos. Nossos experimentos demonstram que os modelos resultantes alcançam ganhos substanciais de zero-shot em quatro benchmarks de raciocínio espacial (Super-CLEVR, Omni3DBench, VSI-Bench e MindCube) sem qualquer adaptação específica para a tarefa. Notavelmente, após o treinamento no Euclid30K, a precisão média no VSI-Bench de todos os modelos avaliados aumentou de 34,5% para 40,5%, uma melhoria de 5,5 pontos percentuais. Entre eles, o RoboBrain2.0-Euclid-7B alcançou 49,6% de precisão, superando o modelo anteriormente considerado estado da arte, o Spatial-MLLM. Até onde sabemos, este é o primeiro estudo sistemático a mostrar que o ajuste fino centrado em geometria pode conferir aos modelos de visão e linguagem habilidades espaciais amplamente transferíveis. O código e o conjunto de dados Euclid30K podem ser encontrados em https://zgca-ai4edu.github.io/Euclids_Gift.
English
Spatial intelligence spans a rich suite of abilities, including visualising and transforming shapes, mentally rotating objects, judging relational positions and containment, and estimating numerosity. However, it still remains a critical unresolved challenge for Multimodal Large Language Models (MLLMs).To fill this gap, we propose to treat Euclidean geometry problem-solving as a surrogate task. Specifically, we meticulously constructed a curated multimodal dataset, called Euclid30K, comprising approximately 30K plane and solid geometry problems. To enable the model to acquire and apply Euclidean principles from these geometry problems, we employed Group Relative Policy Optimization (GRPO) to finetune the Qwen2.5VL family and RoboBrain2.0 family, inspiring the models to identify shapes, count, and relate entities, and perform multi-step deductive reasoning using Euclidean principles. Our experiments demonstrate that the resulting models achieve substantial zero-shot gains across four spatial reasoning benchmarks (Super-CLEVR, Omni3DBench, VSI-Bench, and MindCube) without any task-specific adaptations. Notably, after training on the Euclid30K, the mean VSI-Bench accuracy of all evaluated models rose from 34.5% to 40.5%, improving by 5.5 percentage points. Among them, RoboBrain2.0-Euclid-7B achieves 49.6\% accuracy, surpassing the previous state-of-the-art model, Spatial-MLLM.To our knowledge, this is the first systematic study showing that geometry-centric fine-tuning can confer vision-language models with broadly transferable spatial skills. Code and Euclid30K dataset can be found in https://zgca-ai4edu.github.io/Euclids_Gift.
PDF153September 30, 2025