ChatPaper.aiChatPaper

Actial: Aktivierung der räumlichen Denkfähigkeit multimodaler großer Sprachmodelle

Actial: Activate Spatial Reasoning Ability of Multimodal Large Language Models

November 3, 2025
papers.authors: Xiaoyu Zhan, Wenxuan Huang, Hao Sun, Xinyu Fu, Changfeng Ma, Shaosheng Cao, Bohan Jia, Shaohui Lin, Zhenfei Yin, Lei Bai, Wanli Ouyang, Yuanqi Li, Jie Guo, Yanwen Guo
cs.AI

papers.abstract

Jüngste Fortschritte bei multimodalen großen Sprachmodellen (MLLMs) haben das Verständnis für 2D-Visualisierungen erheblich verbessert, was das Interesse an ihrer Anwendung für komplexe 3D-Bewertungsaufgaben geweckt hat. Es bleibt jedoch unklar, ob diese Modelle die detaillierten räumlichen Informationen, die für eine robuste Leistung in der realen Welt erforderlich sind, effektiv erfassen können, insbesondere die konsistente Übereinstimmung verschiedener Blickwinkel – eine Schlüsselvoraussetzung für eine genaue 3D-Bewertung. Vor diesem Hintergrund führen wir Viewpoint Learning ein, eine Aufgabe, die darauf abzielt, die räumlichen Bewertungsfähigkeiten von MLLMs zu evaluieren und zu verbessern. Wir stellen den Viewpoint-100K-Datensatz vor, der aus 100.000 objektzentrierten Bildpaaren mit verschiedenen Blickwinkeln und entsprechenden Frage-Antwort-Paaren besteht. Unser Ansatz verfolgt eine zweistufige Feinabstimmungsstrategie: Zunächst wird dem Baseline-MLLM durch überwachte Feinabstimmung (SFT) auf Viewpoint-100K grundlegendes Wissen injiziert, was zu signifikanten Verbesserungen bei verschiedenen Aufgaben führt; zweitens wird die Generalisierung durch Reinforcement Learning mit dem Group Relative Policy Optimization (GRPO)-Algorithmus auf einer breiteren Fragestellung verbessert. Zusätzlich führen wir eine hybride Cold-Start-Initialisierungsmethode ein, die darauf ausgelegt ist, gleichzeitig Blickwinkelrepräsentationen zu erlernen und kohärentes logisches Denken beizubehalten. Experimentelle Ergebnisse zeigen, dass unser Ansatz die räumliche Bewertungsfähigkeit des MLLM signifikant aktiviert und die Leistung sowohl bei domäneninternen als auch domänenexternen Bewertungsaufgaben verbessert. Unsere Erkenntnisse unterstreichen den Wert der Entwicklung grundlegender räumlicher Fähigkeiten in MLLMs und unterstützen zukünftige Fortschritte in den Bereichen Robotik, autonome Systeme und 3D-Szenenverständnis.
English
Recent advances in Multimodal Large Language Models (MLLMs) have significantly improved 2D visual understanding, prompting interest in their application to complex 3D reasoning tasks. However, it remains unclear whether these models can effectively capture the detailed spatial information required for robust real-world performance, especially cross-view consistency, a key requirement for accurate 3D reasoning. Considering this issue, we introduce Viewpoint Learning, a task designed to evaluate and improve the spatial reasoning capabilities of MLLMs. We present the Viewpoint-100K dataset, consisting of 100K object-centric image pairs with diverse viewpoints and corresponding question-answer pairs. Our approach employs a two-stage fine-tuning strategy: first, foundational knowledge is injected to the baseline MLLM via Supervised Fine-Tuning (SFT) on Viewpoint-100K, resulting in significant improvements across multiple tasks; second, generalization is enhanced through Reinforcement Learning using the Group Relative Policy Optimization (GRPO) algorithm on a broader set of questions. Additionally, we introduce a hybrid cold-start initialization method designed to simultaneously learn viewpoint representations and maintain coherent reasoning thinking. Experimental results show that our approach significantly activates the spatial reasoning ability of MLLM, improving performance on both in-domain and out-of-domain reasoning tasks. Our findings highlight the value of developing foundational spatial skills in MLLMs, supporting future progress in robotics, autonomous systems, and 3D scene understanding.
PDF101January 19, 2026