Дар Евклида: улучшение пространственного восприятия и мышления в моделях "зрение-язык" с помощью геометрических суррогатных задач
Euclid's Gift: Enhancing Spatial Perception and Reasoning in Vision-Language Models via Geometric Surrogate Tasks
September 29, 2025
Авторы: Shijie Lian, Changti Wu, Laurence Tianruo Yang, Hang Yuan, Bin Yu, Lei Zhang, Kai Chen
cs.AI
Аннотация
Пространственный интеллект охватывает широкий спектр способностей, включая визуализацию и преобразование форм, мысленное вращение объектов, оценку относительных позиций и вложенности, а также определение численности. Однако это по-прежнему остается важной нерешенной задачей для мультимодальных больших языковых моделей (MLLMs). Чтобы заполнить этот пробел, мы предлагаем рассматривать решение задач евклидовой геометрии как суррогатную задачу. В частности, мы тщательно создали курируемый мультимодальный набор данных под названием Euclid30K, содержащий около 30 тысяч задач по планиметрии и стереометрии. Чтобы позволить модели освоить и применять принципы евклидовой геометрии на основе этих задач, мы использовали метод оптимизации групповой относительной политики (GRPO) для тонкой настройки семейств моделей Qwen2.5VL и RoboBrain2.0, вдохновляя модели на распознавание форм, подсчет и установление связей между объектами, а также выполнение многошаговых дедуктивных рассуждений с использованием принципов евклидовой геометрии. Наши эксперименты показывают, что полученные модели достигают значительного улучшения в задачах пространственного мышления на четырех бенчмарках (Super-CLEVR, Omni3DBench, VSI-Bench и MindCube) без какой-либо адаптации под конкретные задачи. Примечательно, что после обучения на Euclid30K средняя точность на бенчмарке VSI-Bench для всех оцененных моделей увеличилась с 34,5% до 40,5%, что на 5,5 процентных пункта выше. Среди них модель RoboBrain2.0-Euclid-7B достигает точности 49,6%, превосходя предыдущую модель-лидер Spatial-MLLM. Насколько нам известно, это первое систематическое исследование, демонстрирующее, что тонкая настройка, ориентированная на геометрию, может наделить модели, работающие с изображениями и текстом, широко применимыми навыками пространственного мышления. Код и набор данных Euclid30K доступны по адресу https://zgca-ai4edu.github.io/Euclids_Gift.
English
Spatial intelligence spans a rich suite of abilities, including visualising
and transforming shapes, mentally rotating objects, judging relational
positions and containment, and estimating numerosity. However, it still remains
a critical unresolved challenge for Multimodal Large Language Models (MLLMs).To
fill this gap, we propose to treat Euclidean geometry problem-solving as a
surrogate task. Specifically, we meticulously constructed a curated multimodal
dataset, called Euclid30K, comprising approximately 30K plane and solid
geometry problems. To enable the model to acquire and apply Euclidean
principles from these geometry problems, we employed Group Relative Policy
Optimization (GRPO) to finetune the Qwen2.5VL family and RoboBrain2.0 family,
inspiring the models to identify shapes, count, and relate entities, and
perform multi-step deductive reasoning using Euclidean principles. Our
experiments demonstrate that the resulting models achieve substantial zero-shot
gains across four spatial reasoning benchmarks (Super-CLEVR, Omni3DBench,
VSI-Bench, and MindCube) without any task-specific adaptations. Notably, after
training on the Euclid30K, the mean VSI-Bench accuracy of all evaluated models
rose from 34.5% to 40.5%, improving by 5.5 percentage points. Among them,
RoboBrain2.0-Euclid-7B achieves 49.6\% accuracy, surpassing the previous
state-of-the-art model, Spatial-MLLM.To our knowledge, this is the first
systematic study showing that geometry-centric fine-tuning can confer
vision-language models with broadly transferable spatial skills. Code and
Euclid30K dataset can be found in https://zgca-ai4edu.github.io/Euclids_Gift.