Euklids Geschenk: Verbesserung der räumlichen Wahrnehmung und des logischen Denkens in Vision-Sprach-Modellen durch geometrische Ersatzaufgaben
Euclid's Gift: Enhancing Spatial Perception and Reasoning in Vision-Language Models via Geometric Surrogate Tasks
September 29, 2025
papers.authors: Shijie Lian, Changti Wu, Laurence Tianruo Yang, Hang Yuan, Bin Yu, Lei Zhang, Kai Chen
cs.AI
papers.abstract
Räumliche Intelligenz umfasst ein breites Spektrum von Fähigkeiten, einschließlich der Visualisierung und Transformation von Formen, der mentalen Rotation von Objekten, der Beurteilung relationaler Positionen und Enthaltenseins sowie der Schätzung von Numerosität. Dennoch bleibt dies eine kritische, ungelöste Herausforderung für Multimodale Große Sprachmodelle (MLLMs). Um diese Lücke zu schließen, schlagen wir vor, die Lösung euklidischer Geometrieprobleme als Ersatzaufgabe zu behandeln. Konkret haben wir sorgfältig einen kuratierten multimodalen Datensatz namens Euclid30K erstellt, der etwa 30.000 Probleme der ebenen und räumlichen Geometrie umfasst. Um dem Modell zu ermöglichen, euklidische Prinzipien aus diesen Geometrieproblemen zu erlernen und anzuwenden, haben wir Group Relative Policy Optimization (GRPO) eingesetzt, um die Qwen2.5VL- und RoboBrain2.0-Modellfamilien zu feintunen. Dies inspiriert die Modelle, Formen zu erkennen, zu zählen, Entitäten in Beziehung zu setzen und mehrstufige deduktive Schlussfolgerungen unter Verwendung euklidischer Prinzipien durchzuführen. Unsere Experimente zeigen, dass die resultierenden Modelle erhebliche Zero-Shot-Gewinne über vier räumliche Reasoning-Benchmarks (Super-CLEVR, Omni3DBench, VSI-Bench und MindCube) erzielen, ohne dass spezifische Anpassungen für die Aufgaben erforderlich sind. Bemerkenswerterweise stieg die durchschnittliche VSI-Bench-Genauigkeit aller evaluierten Modelle nach dem Training auf Euclid30K von 34,5 % auf 40,5 %, was einer Verbesserung von 5,5 Prozentpunkten entspricht. Unter ihnen erreicht RoboBrain2.0-Euclid-7B eine Genauigkeit von 49,6 % und übertrifft damit das bisherige State-of-the-Art-Modell, Spatial-MLLM. Unseres Wissens ist dies die erste systematische Studie, die zeigt, dass geometriezentriertes Feintunen vision-sprachlichen Modellen breit übertragbare räumliche Fähigkeiten verleihen kann. Code und der Euclid30K-Datensatz sind unter https://zgca-ai4edu.github.io/Euclids_Gift verfügbar.
English
Spatial intelligence spans a rich suite of abilities, including visualising
and transforming shapes, mentally rotating objects, judging relational
positions and containment, and estimating numerosity. However, it still remains
a critical unresolved challenge for Multimodal Large Language Models (MLLMs).To
fill this gap, we propose to treat Euclidean geometry problem-solving as a
surrogate task. Specifically, we meticulously constructed a curated multimodal
dataset, called Euclid30K, comprising approximately 30K plane and solid
geometry problems. To enable the model to acquire and apply Euclidean
principles from these geometry problems, we employed Group Relative Policy
Optimization (GRPO) to finetune the Qwen2.5VL family and RoboBrain2.0 family,
inspiring the models to identify shapes, count, and relate entities, and
perform multi-step deductive reasoning using Euclidean principles. Our
experiments demonstrate that the resulting models achieve substantial zero-shot
gains across four spatial reasoning benchmarks (Super-CLEVR, Omni3DBench,
VSI-Bench, and MindCube) without any task-specific adaptations. Notably, after
training on the Euclid30K, the mean VSI-Bench accuracy of all evaluated models
rose from 34.5% to 40.5%, improving by 5.5 percentage points. Among them,
RoboBrain2.0-Euclid-7B achieves 49.6\% accuracy, surpassing the previous
state-of-the-art model, Spatial-MLLM.To our knowledge, this is the first
systematic study showing that geometry-centric fine-tuning can confer
vision-language models with broadly transferable spatial skills. Code and
Euclid30K dataset can be found in https://zgca-ai4edu.github.io/Euclids_Gift.