ユークリッドの贈り物:幾何学的サロゲートタスクによる視覚言語モデルの空間知覚と推論能力の向上
Euclid's Gift: Enhancing Spatial Perception and Reasoning in Vision-Language Models via Geometric Surrogate Tasks
September 29, 2025
著者: Shijie Lian, Changti Wu, Laurence Tianruo Yang, Hang Yuan, Bin Yu, Lei Zhang, Kai Chen
cs.AI
要旨
空間知能は、形状の視覚化と変換、物体の心的回転、相対的な位置関係や包含関係の判断、数量の推定など、豊かな能力群を包含しています。しかし、これはマルチモーダル大規模言語モデル(MLLMs)にとって依然として重要な未解決の課題です。このギャップを埋めるため、我々はユークリッド幾何学の問題解決を代理タスクとして扱うことを提案します。具体的には、約3万問の平面および立体幾何学問題からなる精選されたマルチモーダルデータセット「Euclid30K」を入念に構築しました。モデルがこれらの幾何学問題からユークリッド原理を習得し適用できるようにするため、Group Relative Policy Optimization(GRPO)を用いてQwen2.5VLファミリーとRoboBrain2.0ファミリーをファインチューニングし、形状の識別、数のカウント、エンティティ間の関係付け、ユークリッド原理を用いた多段階の演繹的推論を行うようモデルを導きました。実験の結果、得られたモデルは4つの空間推論ベンチマーク(Super-CLEVR、Omni3DBench、VSI-Bench、MindCube)において、タスク固有の適応なしに大幅なゼロショット性能向上を達成しました。特に、Euclid30Kでのトレーニング後、評価された全てのモデルのVSI-Bench平均精度は34.5%から40.5%に上昇し、5.5ポイントの改善が見られました。その中でも、RoboBrain2.0-Euclid-7Bは49.6%の精度を達成し、従来の最先端モデルであるSpatial-MLLMを凌駕しました。我々の知る限り、幾何学中心のファインチューニングが視覚言語モデルに広く転移可能な空間スキルを付与できることを示した初めての体系的研究です。コードとEuclid30Kデータセットはhttps://zgca-ai4edu.github.io/Euclids_Giftで公開されています。
English
Spatial intelligence spans a rich suite of abilities, including visualising
and transforming shapes, mentally rotating objects, judging relational
positions and containment, and estimating numerosity. However, it still remains
a critical unresolved challenge for Multimodal Large Language Models (MLLMs).To
fill this gap, we propose to treat Euclidean geometry problem-solving as a
surrogate task. Specifically, we meticulously constructed a curated multimodal
dataset, called Euclid30K, comprising approximately 30K plane and solid
geometry problems. To enable the model to acquire and apply Euclidean
principles from these geometry problems, we employed Group Relative Policy
Optimization (GRPO) to finetune the Qwen2.5VL family and RoboBrain2.0 family,
inspiring the models to identify shapes, count, and relate entities, and
perform multi-step deductive reasoning using Euclidean principles. Our
experiments demonstrate that the resulting models achieve substantial zero-shot
gains across four spatial reasoning benchmarks (Super-CLEVR, Omni3DBench,
VSI-Bench, and MindCube) without any task-specific adaptations. Notably, after
training on the Euclid30K, the mean VSI-Bench accuracy of all evaluated models
rose from 34.5% to 40.5%, improving by 5.5 percentage points. Among them,
RoboBrain2.0-Euclid-7B achieves 49.6\% accuracy, surpassing the previous
state-of-the-art model, Spatial-MLLM.To our knowledge, this is the first
systematic study showing that geometry-centric fine-tuning can confer
vision-language models with broadly transferable spatial skills. Code and
Euclid30K dataset can be found in https://zgca-ai4edu.github.io/Euclids_Gift.