Actial: Aktivierung der räumlichen Denkfähigkeit multimodaler großer Sprachmodelle
Actial: Activate Spatial Reasoning Ability of Multimodal Large Language Models
November 3, 2025
papers.authors: Xiaoyu Zhan, Wenxuan Huang, Hao Sun, Xinyu Fu, Changfeng Ma, Shaosheng Cao, Bohan Jia, Shaohui Lin, Zhenfei Yin, Lei Bai, Wanli Ouyang, Yuanqi Li, Jie Guo, Yanwen Guo
cs.AI
papers.abstract
Jüngste Fortschritte bei multimodalen großen Sprachmodellen (MLLMs) haben das Verständnis für 2D-Visualisierungen erheblich verbessert, was das Interesse an ihrer Anwendung für komplexe 3D-Bewertungsaufgaben geweckt hat. Es bleibt jedoch unklar, ob diese Modelle die detaillierten räumlichen Informationen, die für eine robuste Leistung in der realen Welt erforderlich sind, effektiv erfassen können, insbesondere die konsistente Übereinstimmung verschiedener Blickwinkel – eine Schlüsselvoraussetzung für eine genaue 3D-Bewertung. Vor diesem Hintergrund führen wir Viewpoint Learning ein, eine Aufgabe, die darauf abzielt, die räumlichen Bewertungsfähigkeiten von MLLMs zu evaluieren und zu verbessern. Wir stellen den Viewpoint-100K-Datensatz vor, der aus 100.000 objektzentrierten Bildpaaren mit verschiedenen Blickwinkeln und entsprechenden Frage-Antwort-Paaren besteht. Unser Ansatz verfolgt eine zweistufige Feinabstimmungsstrategie: Zunächst wird dem Baseline-MLLM durch überwachte Feinabstimmung (SFT) auf Viewpoint-100K grundlegendes Wissen injiziert, was zu signifikanten Verbesserungen bei verschiedenen Aufgaben führt; zweitens wird die Generalisierung durch Reinforcement Learning mit dem Group Relative Policy Optimization (GRPO)-Algorithmus auf einer breiteren Fragestellung verbessert. Zusätzlich führen wir eine hybride Cold-Start-Initialisierungsmethode ein, die darauf ausgelegt ist, gleichzeitig Blickwinkelrepräsentationen zu erlernen und kohärentes logisches Denken beizubehalten. Experimentelle Ergebnisse zeigen, dass unser Ansatz die räumliche Bewertungsfähigkeit des MLLM signifikant aktiviert und die Leistung sowohl bei domäneninternen als auch domänenexternen Bewertungsaufgaben verbessert. Unsere Erkenntnisse unterstreichen den Wert der Entwicklung grundlegender räumlicher Fähigkeiten in MLLMs und unterstützen zukünftige Fortschritte in den Bereichen Robotik, autonome Systeme und 3D-Szenenverständnis.
English
Recent advances in Multimodal Large Language Models (MLLMs) have
significantly improved 2D visual understanding, prompting interest in their
application to complex 3D reasoning tasks. However, it remains unclear whether
these models can effectively capture the detailed spatial information required
for robust real-world performance, especially cross-view consistency, a key
requirement for accurate 3D reasoning. Considering this issue, we introduce
Viewpoint Learning, a task designed to evaluate and improve the spatial
reasoning capabilities of MLLMs. We present the Viewpoint-100K dataset,
consisting of 100K object-centric image pairs with diverse viewpoints and
corresponding question-answer pairs. Our approach employs a two-stage
fine-tuning strategy: first, foundational knowledge is injected to the baseline
MLLM via Supervised Fine-Tuning (SFT) on Viewpoint-100K, resulting in
significant improvements across multiple tasks; second, generalization is
enhanced through Reinforcement Learning using the Group Relative Policy
Optimization (GRPO) algorithm on a broader set of questions. Additionally, we
introduce a hybrid cold-start initialization method designed to simultaneously
learn viewpoint representations and maintain coherent reasoning thinking.
Experimental results show that our approach significantly activates the spatial
reasoning ability of MLLM, improving performance on both in-domain and
out-of-domain reasoning tasks. Our findings highlight the value of developing
foundational spatial skills in MLLMs, supporting future progress in robotics,
autonomous systems, and 3D scene understanding.