ChatPaper.aiChatPaper

Дар Евклида: улучшение пространственного восприятия и мышления в моделях "зрение-язык" с помощью геометрических суррогатных задач

Euclid's Gift: Enhancing Spatial Perception and Reasoning in Vision-Language Models via Geometric Surrogate Tasks

September 29, 2025
Авторы: Shijie Lian, Changti Wu, Laurence Tianruo Yang, Hang Yuan, Bin Yu, Lei Zhang, Kai Chen
cs.AI

Аннотация

Пространственный интеллект охватывает широкий спектр способностей, включая визуализацию и преобразование форм, мысленное вращение объектов, оценку относительных позиций и вложенности, а также определение численности. Однако это по-прежнему остается важной нерешенной задачей для мультимодальных больших языковых моделей (MLLMs). Чтобы заполнить этот пробел, мы предлагаем рассматривать решение задач евклидовой геометрии как суррогатную задачу. В частности, мы тщательно создали курируемый мультимодальный набор данных под названием Euclid30K, содержащий около 30 тысяч задач по планиметрии и стереометрии. Чтобы позволить модели освоить и применять принципы евклидовой геометрии на основе этих задач, мы использовали метод оптимизации групповой относительной политики (GRPO) для тонкой настройки семейств моделей Qwen2.5VL и RoboBrain2.0, вдохновляя модели на распознавание форм, подсчет и установление связей между объектами, а также выполнение многошаговых дедуктивных рассуждений с использованием принципов евклидовой геометрии. Наши эксперименты показывают, что полученные модели достигают значительного улучшения в задачах пространственного мышления на четырех бенчмарках (Super-CLEVR, Omni3DBench, VSI-Bench и MindCube) без какой-либо адаптации под конкретные задачи. Примечательно, что после обучения на Euclid30K средняя точность на бенчмарке VSI-Bench для всех оцененных моделей увеличилась с 34,5% до 40,5%, что на 5,5 процентных пункта выше. Среди них модель RoboBrain2.0-Euclid-7B достигает точности 49,6%, превосходя предыдущую модель-лидер Spatial-MLLM. Насколько нам известно, это первое систематическое исследование, демонстрирующее, что тонкая настройка, ориентированная на геометрию, может наделить модели, работающие с изображениями и текстом, широко применимыми навыками пространственного мышления. Код и набор данных Euclid30K доступны по адресу https://zgca-ai4edu.github.io/Euclids_Gift.
English
Spatial intelligence spans a rich suite of abilities, including visualising and transforming shapes, mentally rotating objects, judging relational positions and containment, and estimating numerosity. However, it still remains a critical unresolved challenge for Multimodal Large Language Models (MLLMs).To fill this gap, we propose to treat Euclidean geometry problem-solving as a surrogate task. Specifically, we meticulously constructed a curated multimodal dataset, called Euclid30K, comprising approximately 30K plane and solid geometry problems. To enable the model to acquire and apply Euclidean principles from these geometry problems, we employed Group Relative Policy Optimization (GRPO) to finetune the Qwen2.5VL family and RoboBrain2.0 family, inspiring the models to identify shapes, count, and relate entities, and perform multi-step deductive reasoning using Euclidean principles. Our experiments demonstrate that the resulting models achieve substantial zero-shot gains across four spatial reasoning benchmarks (Super-CLEVR, Omni3DBench, VSI-Bench, and MindCube) without any task-specific adaptations. Notably, after training on the Euclid30K, the mean VSI-Bench accuracy of all evaluated models rose from 34.5% to 40.5%, improving by 5.5 percentage points. Among them, RoboBrain2.0-Euclid-7B achieves 49.6\% accuracy, surpassing the previous state-of-the-art model, Spatial-MLLM.To our knowledge, this is the first systematic study showing that geometry-centric fine-tuning can confer vision-language models with broadly transferable spatial skills. Code and Euclid30K dataset can be found in https://zgca-ai4edu.github.io/Euclids_Gift.
PDF153September 30, 2025