ChatPaper.aiChatPaper

액티얼: 멀티모달 대규모 언어 모델의 공간 추론 능력 활성화

Actial: Activate Spatial Reasoning Ability of Multimodal Large Language Models

November 3, 2025
저자: Xiaoyu Zhan, Wenxuan Huang, Hao Sun, Xinyu Fu, Changfeng Ma, Shaosheng Cao, Bohan Jia, Shaohui Lin, Zhenfei Yin, Lei Bai, Wanli Ouyang, Yuanqi Li, Jie Guo, Yanwen Guo
cs.AI

초록

멀티모달 대규모 언어 모델(MLLM)의 최근 발전은 2차원 시각 이해 능력을 크게 향상시켜 복잡한 3차원 추론 작업에 대한 적용 가능성에 대한 관심을 불러일으켰습니다. 그러나 이러한 모델이 강력한 실세계 성능, 특히 정확한 3차원 추론의 핵심 요구 사항인 교차 뷰 일관성을 위해 필요한 세밀한 공간 정보를 효과적으로 포착할 수 있는지 여부는 여전히 불분명합니다. 이러한 문제를 고려하여, 본 연구에서는 MLLM의 공간 추론 능력을 평가하고 향상시키기 위해 설계된 작업인 시점 학습(Viewpoint Learning)을 소개합니다. 우리는 다양한 시점을 가진 객체 중심 이미지 쌍 10만 개와 이에 상응하는 질문-답변 쌍으로 구성된 Viewpoint-100K 데이터셋을 제시합니다. 우리의 접근 방식은 두 단계의 미세 조정 전략을 사용합니다: 첫째, Viewpoint-100K 데이터셋에 대한 지도 미세 조정(SFT)을 통해 기준 MLLM에 기초 지식을 주입하여 여러 작업에서의 성능을 크게 향상시킵니다. 둘째, 더 광범위한 질문 집단에 대해 그룹 상대 정책 최적화(GRPO) 알고리즘을 활용한 강화 학습을 통해 일반화 능력을 강화합니다. 또한, 시점 표현을 동시에 학습하고 일관된 추론 사고를 유지하도록 설계된 하이브리드 콜드-스타트 초기화 방법을 도입합니다. 실험 결과는 우리의 접근 방식이 MLLM의 공간 추론 능력을 유의미하게 활성화하여 도메인 내 및 도메인 외 추론 작업 모두에서 성능을 향상시킴을 보여줍니다. 우리의 연구 결과는 MLLM의 기초 공간 기술 개발 가치를 부각하며, 로봇공학, 자율 시스템, 3차원 장면 이해 분야의 향후 발전을 뒷받침합니다.
English
Recent advances in Multimodal Large Language Models (MLLMs) have significantly improved 2D visual understanding, prompting interest in their application to complex 3D reasoning tasks. However, it remains unclear whether these models can effectively capture the detailed spatial information required for robust real-world performance, especially cross-view consistency, a key requirement for accurate 3D reasoning. Considering this issue, we introduce Viewpoint Learning, a task designed to evaluate and improve the spatial reasoning capabilities of MLLMs. We present the Viewpoint-100K dataset, consisting of 100K object-centric image pairs with diverse viewpoints and corresponding question-answer pairs. Our approach employs a two-stage fine-tuning strategy: first, foundational knowledge is injected to the baseline MLLM via Supervised Fine-Tuning (SFT) on Viewpoint-100K, resulting in significant improvements across multiple tasks; second, generalization is enhanced through Reinforcement Learning using the Group Relative Policy Optimization (GRPO) algorithm on a broader set of questions. Additionally, we introduce a hybrid cold-start initialization method designed to simultaneously learn viewpoint representations and maintain coherent reasoning thinking. Experimental results show that our approach significantly activates the spatial reasoning ability of MLLM, improving performance on both in-domain and out-of-domain reasoning tasks. Our findings highlight the value of developing foundational spatial skills in MLLMs, supporting future progress in robotics, autonomous systems, and 3D scene understanding.
PDF101January 19, 2026