ChatPaper.aiChatPaper

Actial: マルチモーダル大規模言語モデルの空間推論能力の活性化

Actial: Activate Spatial Reasoning Ability of Multimodal Large Language Models

November 3, 2025
著者: Xiaoyu Zhan, Wenxuan Huang, Hao Sun, Xinyu Fu, Changfeng Ma, Shaosheng Cao, Bohan Jia, Shaohui Lin, Zhenfei Yin, Lei Bai, Wanli Ouyang, Yuanqi Li, Jie Guo, Yanwen Guo
cs.AI

要旨

マルチモーダル大規模言語モデル(MLLM)の最近の進展は、2D視覚理解を大幅に改善し、複雑な3D推論タスクへの応用に関心を集めている。しかし、これらのモデルが、堅牢な実世界での性能、特に正確な3D推論における重要な要件であるクロスビュー一貫性に必要な詳細な空間情報を効果的に捕捉できるかどうかは不明である。この問題を踏まえ、我々はMLLMの空間推論能力を評価・改善するために設計されたタスクであるViewpoint Learningを提案する。また、多様な視点を持つ10万のオブジェクト中心画像ペアと対応する質問応答ペアから成るViewpoint-100Kデータセットを提示する。我々のアプローチは、2段階のファインチューニング戦略を採用する。まず、ベースラインMLLMにViewpoint-100Kを用いた教師ありファインチューニング(SFT)により基礎知識を注入し、複数タスクにわたる大幅な改善を実現する。次に、より広範な質問セットに対してGroup Relative Policy Optimization(GRPO)アルゴリズムを用いた強化学習により汎化性能を強化する。さらに、視点表現の学習と首尾一貫した推論思考の維持を同時に行うためのハイブリッドコールドスタート初期化手法を導入する。実験結果は、本アプローチがMLLMの空間推論能力を著しく活性化し、ドメイン内およびドメイン外の推論タスク双方において性能を向上させることを示す。本知見は、MLLMにおける基礎的な空間スキルの開発の価値を強調し、ロボティクス、自律システム、3Dシーン理解における将来の進展を支えるものである。
English
Recent advances in Multimodal Large Language Models (MLLMs) have significantly improved 2D visual understanding, prompting interest in their application to complex 3D reasoning tasks. However, it remains unclear whether these models can effectively capture the detailed spatial information required for robust real-world performance, especially cross-view consistency, a key requirement for accurate 3D reasoning. Considering this issue, we introduce Viewpoint Learning, a task designed to evaluate and improve the spatial reasoning capabilities of MLLMs. We present the Viewpoint-100K dataset, consisting of 100K object-centric image pairs with diverse viewpoints and corresponding question-answer pairs. Our approach employs a two-stage fine-tuning strategy: first, foundational knowledge is injected to the baseline MLLM via Supervised Fine-Tuning (SFT) on Viewpoint-100K, resulting in significant improvements across multiple tasks; second, generalization is enhanced through Reinforcement Learning using the Group Relative Policy Optimization (GRPO) algorithm on a broader set of questions. Additionally, we introduce a hybrid cold-start initialization method designed to simultaneously learn viewpoint representations and maintain coherent reasoning thinking. Experimental results show that our approach significantly activates the spatial reasoning ability of MLLM, improving performance on both in-domain and out-of-domain reasoning tasks. Our findings highlight the value of developing foundational spatial skills in MLLMs, supporting future progress in robotics, autonomous systems, and 3D scene understanding.
PDF101January 19, 2026