ChatPaper.aiChatPaper

Il Dono di Euclide: Migliorare la Percezione Spaziale e il Ragionamento nei Modelli Visione-Linguaggio attraverso Compiti Surrogati Geometrici

Euclid's Gift: Enhancing Spatial Perception and Reasoning in Vision-Language Models via Geometric Surrogate Tasks

September 29, 2025
Autori: Shijie Lian, Changti Wu, Laurence Tianruo Yang, Hang Yuan, Bin Yu, Lei Zhang, Kai Chen
cs.AI

Abstract

L'intelligenza spaziale comprende una vasta gamma di abilità, tra cui la visualizzazione e la trasformazione di forme, la rotazione mentale di oggetti, la valutazione di posizioni relazionali e contenimento, e la stima della numerosità. Tuttavia, rimane una sfida critica e irrisolta per i Modelli Linguistici Multimodali di Grande Scala (MLLMs). Per colmare questa lacuna, proponiamo di considerare la risoluzione di problemi di geometria euclidea come un compito surrogato. Nello specifico, abbiamo meticolosamente costruito un dataset multimodale curato, chiamato Euclid30K, che comprende circa 30K problemi di geometria piana e solida. Per consentire al modello di acquisire e applicare i principi euclidei da questi problemi di geometria, abbiamo utilizzato l'ottimizzazione delle politiche relative al gruppo (GRPO) per affinare le famiglie Qwen2.5VL e RoboBrain2.0, ispirando i modelli a identificare forme, contare e relazionare entità, e eseguire ragionamenti deduttivi multi-step utilizzando i principi euclidei. I nostri esperimenti dimostrano che i modelli risultanti ottengono sostanziali miglioramenti zero-shot su quattro benchmark di ragionamento spaziale (Super-CLEVR, Omni3DBench, VSI-Bench e MindCube) senza alcun adattamento specifico per il compito. In particolare, dopo l'addestramento su Euclid30K, l'accuratezza media su VSI-Bench di tutti i modelli valutati è passata dal 34,5% al 40,5%, con un miglioramento di 5,5 punti percentuali. Tra questi, RoboBrain2.0-Euclid-7B raggiunge un'accuratezza del 49,6%, superando il precedente modello all'avanguardia, Spatial-MLLM. A nostra conoscenza, questo è il primo studio sistematico che dimostra come un affinamento centrato sulla geometria possa conferire ai modelli visione-linguaggio abilità spaziali ampiamente trasferibili. Il codice e il dataset Euclid30K sono disponibili su https://zgca-ai4edu.github.io/Euclids_Gift.
English
Spatial intelligence spans a rich suite of abilities, including visualising and transforming shapes, mentally rotating objects, judging relational positions and containment, and estimating numerosity. However, it still remains a critical unresolved challenge for Multimodal Large Language Models (MLLMs).To fill this gap, we propose to treat Euclidean geometry problem-solving as a surrogate task. Specifically, we meticulously constructed a curated multimodal dataset, called Euclid30K, comprising approximately 30K plane and solid geometry problems. To enable the model to acquire and apply Euclidean principles from these geometry problems, we employed Group Relative Policy Optimization (GRPO) to finetune the Qwen2.5VL family and RoboBrain2.0 family, inspiring the models to identify shapes, count, and relate entities, and perform multi-step deductive reasoning using Euclidean principles. Our experiments demonstrate that the resulting models achieve substantial zero-shot gains across four spatial reasoning benchmarks (Super-CLEVR, Omni3DBench, VSI-Bench, and MindCube) without any task-specific adaptations. Notably, after training on the Euclid30K, the mean VSI-Bench accuracy of all evaluated models rose from 34.5% to 40.5%, improving by 5.5 percentage points. Among them, RoboBrain2.0-Euclid-7B achieves 49.6\% accuracy, surpassing the previous state-of-the-art model, Spatial-MLLM.To our knowledge, this is the first systematic study showing that geometry-centric fine-tuning can confer vision-language models with broadly transferable spatial skills. Code and Euclid30K dataset can be found in https://zgca-ai4edu.github.io/Euclids_Gift.
PDF153September 30, 2025