COOPER: 공간 지능을 위한 협력적 인지 및 추론 통합 모델
COOPER: A Unified Model for Cooperative Perception and Reasoning in Spatial Intelligence
December 4, 2025
저자: Zefeng Zhang, Xiangzhao Hao, Hengzhu Tang, Zhenyu Zhang, Jiawei Sheng, Xiaodong Li, Zhenyang Li, Li Gao, Daiting Shi, Dawei Yin, Tingwen Liu
cs.AI
초록
시각적 공간 추론은 다중 모드 대규모 언어 모델(MLLM)이 객체 속성과 공간 관계를 이해하는 데 핵심적이지만, 현재 모델들은 여전히 3D 인식 추론에 어려움을 겪고 있습니다. 기존 접근법은 일반적으로 깊이 및 분할과 같은 보조 양상을 통해 RGB 입력을 증강하여 인식을 강화하거나, 공간 VQA 데이터셋으로 학습하고 강화 학습을 적용하여 추론을 향상시키는 방식으로 두 측면을 분리하여 다루고 있습니다. 본 연구에서는 통합 MLLM이 고유한 방식으로 공간 인식을 강화하고, 적응형 교차 추론을 통해 더 강력한 공간 지능을 달성할 수 있는지 조사합니다. 우리는 깊이와 분할을 보조 양상으로 활용하고, 보조 양상 생성 및 적응형 교차 추론 능력을 습득하기 위해 두 단계로 학습되는 통합 MLLM인 COOPER를 제안합니다. COOPER는 일반 성능을 유지하면서 공간 추론에서 평균 6.91%의 향상을 달성했습니다. 더욱이 보조 양상 생성만을 위해 학습된 변형 모델도 거리 및 크기 추정에서 7.92%의 성능 향상을 보였으며, 이는 보조 양상 생성을 학습함으로써 공간 지식을 내재화하고 공간 이해를 강화하는 데 도움이 됨을 시사합니다.
English
Visual Spatial Reasoning is crucial for enabling Multimodal Large Language Models (MLLMs) to understand object properties and spatial relationships, yet current models still struggle with 3D-aware reasoning. Existing approaches typically enhance either perception, by augmenting RGB inputs with auxiliary modalities such as depth and segmentation, or reasoning, by training on spatial VQA datasets and applying reinforcement learning, and thus treat these two aspects in isolation. In this work, we investigate whether a unified MLLM can develop an intrinsic ability to enhance spatial perception and, through adaptive interleaved reasoning, achieve stronger spatial intelligence. We propose COOPER, a unified MLLM that leverages depth and segmentation as auxiliary modalities and is trained in two stages to acquire auxiliary modality generation and adaptive, interleaved reasoning capabilities. COOPER achieves an average 6.91\% improvement in spatial reasoning while maintaining general performance. Moreover, even a variant trained only for auxiliary modality generation attains a 7.92\% gain on distance and size estimation, suggesting that learning to generate auxiliary modalities helps internalize spatial knowledge and strengthen spatial understanding.