ChatPaper.aiChatPaper

COOPER: Ein einheitliches Modell für kooperative Wahrnehmung und logisches Schließen in der räumlichen Intelligenz

COOPER: A Unified Model for Cooperative Perception and Reasoning in Spatial Intelligence

December 4, 2025
papers.authors: Zefeng Zhang, Xiangzhao Hao, Hengzhu Tang, Zhenyu Zhang, Jiawei Sheng, Xiaodong Li, Zhenyang Li, Li Gao, Daiting Shi, Dawei Yin, Tingwen Liu
cs.AI

papers.abstract

Visuell-räumliches Denken ist entscheidend dafür, dass multimodale große Sprachmodelle (MLLMs) Objekteigenschaften und räumliche Beziehungen verstehen können, doch aktuelle Modelle haben nach wie vor Schwierigkeiten mit 3D-bewusstem Schließen. Bisherige Ansätze verbessern typischerweise entweder die Wahrnehmung, indem RGB-Eingaben durch Hilfsmodalitäten wie Tiefeninformationen und Segmentierung angereichert werden, oder das Schließen, indem sie auf räumlichen VQA-Datensätzen trainiert und mittels bestärkendem Lernen verfeinert werden, und behandeln diese beiden Aspekte somit isoliert. In dieser Arbeit untersuchen wir, ob ein vereinheitlichtes MLLM eine intrinsische Fähigkeit zur Verbesserung der räumlichen Wahrnehmung entwickeln und durch adaptives, verschachteltes Schließen eine stärkere räumliche Intelligenz erreichen kann. Wir schlagen COOPER vor, ein vereinheitlichtes MLLM, das Tiefeninformationen und Segmentierung als Hilfsmodalitäten nutzt und in zwei Stufen trainiert wird, um Fähigkeiten zur Erzeugung von Hilfsmodalitäten sowie zu adaptivem, verschachteltem Schließen zu erwerben. COOPER erzielt eine durchschnittliche Verbesserung von 6,91 % beim räumlichen Schließen, bei gleichzeitiger Beibehaltung der allgemeinen Leistungsfähigkeit. Darüber hinaus erreicht sogar eine Variante, die nur für die Erzeugung von Hilfsmodalitäten trainiert wurde, einen Zuwachs von 7,92 % bei der Schätzung von Entfernung und Größe, was darauf hindeutet, dass das Erlernen der Erzeugung von Hilfsmodalitäten dazu beiträgt, räumliches Wissen zu internalisieren und das räumliche Verständnis zu stärken.
English
Visual Spatial Reasoning is crucial for enabling Multimodal Large Language Models (MLLMs) to understand object properties and spatial relationships, yet current models still struggle with 3D-aware reasoning. Existing approaches typically enhance either perception, by augmenting RGB inputs with auxiliary modalities such as depth and segmentation, or reasoning, by training on spatial VQA datasets and applying reinforcement learning, and thus treat these two aspects in isolation. In this work, we investigate whether a unified MLLM can develop an intrinsic ability to enhance spatial perception and, through adaptive interleaved reasoning, achieve stronger spatial intelligence. We propose COOPER, a unified MLLM that leverages depth and segmentation as auxiliary modalities and is trained in two stages to acquire auxiliary modality generation and adaptive, interleaved reasoning capabilities. COOPER achieves an average 6.91\% improvement in spatial reasoning while maintaining general performance. Moreover, even a variant trained only for auxiliary modality generation attains a 7.92\% gain on distance and size estimation, suggesting that learning to generate auxiliary modalities helps internalize spatial knowledge and strengthen spatial understanding.
PDF113December 9, 2025