Активация способности к пространственному мышлению мультимодальных больших языковых моделей
Actial: Activate Spatial Reasoning Ability of Multimodal Large Language Models
November 3, 2025
Авторы: Xiaoyu Zhan, Wenxuan Huang, Hao Sun, Xinyu Fu, Changfeng Ma, Shaosheng Cao, Bohan Jia, Shaohui Lin, Zhenfei Yin, Lei Bai, Wanli Ouyang, Yuanqi Li, Jie Guo, Yanwen Guo
cs.AI
Аннотация
Последние достижения в области мультимодальных больших языковых моделей (MLLM) значительно улучшили понимание двумерных визуальных данных, что стимулировало интерес к их применению для решения сложных задач трехмерного логического вывода. Однако остается неясным, способны ли эти модели эффективно улавливать детальную пространственную информацию, необходимую для устойчивой работы в реальных условиях, особенно кросс-вью консистентность — ключевое требование для точного 3D-рассуждения. Учитывая эту проблему, мы представляем Viewpoint Learning — задачу, разработанную для оценки и улучшения пространственных способностей MLLM. Мы представляем набор данных Viewpoint-100K, состоящий из 100 тысяч пар объектно-ориентированных изображений с разнообразными ракурсами и соответствующих пар "вопрос-ответ". Наш подход использует двухэтапную стратегию тонкой настройки: сначала базовые знания внедряются в исходную MLLM посредством контролируемой тонкой настройки (SFT) на Viewpoint-100K, что приводит к значительному улучшению результатов в различных задачах; затем обобщающая способность усиливается с помощью обучения с подкреплением на основе алгоритма GRPO (Group Relative Policy Optimization) на более широком наборе вопросов. Дополнительно мы представляем гибридный метод холодной инициализации, предназначенный для одновременного изучения представлений ракурсов и поддержания последовательности логических рассуждений. Экспериментальные результаты показывают, что наш подход значительно активирует пространственные способности MLLM, улучшая производительность как на внутридоменных, так и на внешних задачах логического вывода. Наши результаты подчеркивают ценность развития фундаментальных пространственных навыков в MLLM, способствуя будущему прогрессу в робототехнике, автономных системах и понимании 3D-сцен.
English
Recent advances in Multimodal Large Language Models (MLLMs) have
significantly improved 2D visual understanding, prompting interest in their
application to complex 3D reasoning tasks. However, it remains unclear whether
these models can effectively capture the detailed spatial information required
for robust real-world performance, especially cross-view consistency, a key
requirement for accurate 3D reasoning. Considering this issue, we introduce
Viewpoint Learning, a task designed to evaluate and improve the spatial
reasoning capabilities of MLLMs. We present the Viewpoint-100K dataset,
consisting of 100K object-centric image pairs with diverse viewpoints and
corresponding question-answer pairs. Our approach employs a two-stage
fine-tuning strategy: first, foundational knowledge is injected to the baseline
MLLM via Supervised Fine-Tuning (SFT) on Viewpoint-100K, resulting in
significant improvements across multiple tasks; second, generalization is
enhanced through Reinforcement Learning using the Group Relative Policy
Optimization (GRPO) algorithm on a broader set of questions. Additionally, we
introduce a hybrid cold-start initialization method designed to simultaneously
learn viewpoint representations and maintain coherent reasoning thinking.
Experimental results show that our approach significantly activates the spatial
reasoning ability of MLLM, improving performance on both in-domain and
out-of-domain reasoning tasks. Our findings highlight the value of developing
foundational spatial skills in MLLMs, supporting future progress in robotics,
autonomous systems, and 3D scene understanding.