Comunicação sobre o Espaço: Integração Espacial Mediada pela Linguagem em Visões Parciais

Resumo

Os seres humanos constroem uma compreensão espacial compartilhada comunicando observações parciais e dependentes do ponto de vista. Questionamos se os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) podem fazer o mesmo, alinhando diferentes perspectivas egocêntricas por meio do diálogo para formar um modelo mental coerente e alocêntrico de um ambiente compartilhado. Para estudar isso sistematicamente, introduzimos o COSMIC, um *benchmark* para Comunicação Espacial Colaborativa. Neste cenário, dois agentes MLLM estáticos observam um ambiente interno 3D de diferentes pontos de vista e trocam mensagens em linguagem natural para resolver consultas espaciais. O COSMIC contém 899 cenas diversas e 1250 pares de pergunta-resposta abrangendo cinco tarefas. Descobrimos uma hierarquia de capacidades consistente: os MLLMs são mais confiáveis na identificação de objetos-âncora compartilhados entre as visões, têm um desempenho pior no raciocínio relacional e falham amplamente na construção de mapas globalmente consistentes, com desempenho próximo ao acaso, mesmo para os modelos de última geração. Além disso, descobrimos que a capacidade de "pensamento" gera ganhos consistentes na ancoragem de referências, mas é insuficiente para uma comunicação espacial de nível superior. Para contextualizar o comportamento do modelo, também recolhemos 250 diálogos humano-humano. Os humanos alcançam uma precisão agregada de 95%, deixando um espaço significativo para melhoria mesmo para o melhor modelo, o Gemini-3-Pro-Thinking, que atinge 72% de precisão agregada. Adicionalmente, as conversas humanas tornam-se cada vez mais específicas à medida que os parceiros convergem para um modelo mental compartilhado, enquanto os diálogos dos modelos continuam a explorar novas possibilidades em vez de convergir, consistente com uma capacidade limitada de construir e manter um modelo mental compartilhado robusto. O nosso código e dados estão disponíveis em https://github.com/ankursikarwar/Cosmic.

English

Humans build shared spatial understanding by communicating partial, viewpoint-dependent observations. We ask whether Multimodal Large Language Models (MLLMs) can do the same, aligning distinct egocentric views through dialogue to form a coherent, allocentric mental model of a shared environment. To study this systematically, we introduce COSMIC, a benchmark for Collaborative Spatial Communication. In this setting, two static MLLM agents observe a 3D indoor environment from different viewpoints and exchange natural-language messages to solve spatial queries. COSMIC contains 899 diverse scenes and 1250 question-answer pairs spanning five tasks. We find a consistent capability hierarchy, MLLMs are most reliable at identifying shared anchor objects across views, perform worse on relational reasoning, and largely fail at building globally consistent maps, performing near chance, even for the frontier models. Moreover, we find thinking capability yields consistent gains in anchor grounding, but is insufficient for higher-level spatial communication. To contextualize model behavior, we additionally collect 250 human-human dialogues. Humans achieve 95% aggregate accuracy, leaving significant room for improvement for even the best performing model Gemini-3-Pro-Thinking which achieves 72% aggregate accuracy. Moreover, human conversations become increasingly specific as partners converge on a shared mental model, whereas model dialogues continue to explore new possibilities rather than converging, consistent with a limited ability to build and maintain a robust shared mental model. Our code and data is available at https://github.com/ankursikarwar/Cosmic

Comunicação sobre o Espaço: Integração Espacial Mediada pela Linguagem em Visões Parciais

Communicating about Space: Language-Mediated Spatial Integration Across Partial Views

Resumo

Support