COOPER: Um Modelo Unificado para Percepção e Raciocínio Cooperativo em Inteligência Espacial

Resumo

O Raciocínio Visual Espacial é crucial para permitir que os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) compreendam as propriedades dos objetos e as relações espaciais, no entanto, os modelos atuais ainda lutam com o raciocínio consciente do 3D. As abordagens existentes geralmente aprimoram a percepção, aumentando as entradas RGB com modalidades auxiliares, como profundidade e segmentação, ou o raciocínio, treinando em conjuntos de dados de QVA (Questionamento e Resposta Visual) espaciais e aplicando aprendizado por reforço, tratando assim esses dois aspectos de forma isolada. Neste trabalho, investigamos se um MLLM unificado pode desenvolver uma capacidade intrínseca para melhorar a percepção espacial e, por meio de um raciocínio intercalado adaptativo, alcançar uma inteligência espacial mais forte. Propomos o COOPER, um MLLM unificado que aproveita a profundidade e a segmentação como modalidades auxiliares e é treinado em dois estágios para adquirir capacidades de geração de modalidades auxiliares e de raciocínio intercalado adaptativo. O COOPER alcança uma melhoria média de 6,91% no raciocínio espacial, mantendo o desempenho geral. Além disso, mesmo uma variante treinada apenas para geração de modalidades auxiliares obtém um ganho de 7,92% na estimativa de distância e tamanho, sugerindo que aprender a gerar modalidades auxiliares ajuda a internalizar o conhecimento espacial e a fortalecer a compreensão espacial.

English

Visual Spatial Reasoning is crucial for enabling Multimodal Large Language Models (MLLMs) to understand object properties and spatial relationships, yet current models still struggle with 3D-aware reasoning. Existing approaches typically enhance either perception, by augmenting RGB inputs with auxiliary modalities such as depth and segmentation, or reasoning, by training on spatial VQA datasets and applying reinforcement learning, and thus treat these two aspects in isolation. In this work, we investigate whether a unified MLLM can develop an intrinsic ability to enhance spatial perception and, through adaptive interleaved reasoning, achieve stronger spatial intelligence. We propose COOPER, a unified MLLM that leverages depth and segmentation as auxiliary modalities and is trained in two stages to acquire auxiliary modality generation and adaptive, interleaved reasoning capabilities. COOPER achieves an average 6.91\% improvement in spatial reasoning while maintaining general performance. Moreover, even a variant trained only for auxiliary modality generation attains a 7.92\% gain on distance and size estimation, suggesting that learning to generate auxiliary modalities helps internalize spatial knowledge and strengthen spatial understanding.

COOPER: Um Modelo Unificado para Percepção e Raciocínio Cooperativo em Inteligência Espacial

COOPER: A Unified Model for Cooperative Perception and Reasoning in Spatial Intelligence

Resumo

Support