Comunicación sobre el Espacio: Integración Espacial Mediante el Lenguaje a Través de Vistas Parciales

Resumen

Los seres humanos construyen una comprensión espacial compartida comunicando observaciones parciales y dependientes del punto de vista. Nos preguntamos si los Modelos de Lenguaje Grandes Multimodales (MLLMs) pueden hacer lo mismo, alineando distintas perspectivas egocéntricas a través del diálogo para formar un modelo mental coherente y alocéntrico de un entorno compartido. Para estudiar esto sistemáticamente, presentamos COSMIC, un punto de referencia para la Comunicación Espacial Colaborativa. En este escenario, dos agentes MLLM estáticos observan un entorno interior en 3D desde diferentes puntos de vista e intercambian mensajes en lenguaje natural para resolver consultas espaciales. COSMIC contiene 899 escenas diversas y 1250 pares de preguntas y respuestas que abarcan cinco tareas. Encontramos una jerarquía de capacidades consistente: los MLLMs son más confiables para identificar objetos ancla compartidos entre vistas, su rendimiento es peor en el razonamiento relacional y, en gran medida, fallan en la construcción de mapas globalmente consistentes, con un rendimiento cercano al azar, incluso para los modelos más avanzados. Además, encontramos que la capacidad de pensamiento genera ganancias consistentes en el anclaje de referentes, pero es insuficiente para una comunicación espacial de nivel superior. Para contextualizar el comportamiento de los modelos, adicionalmente recopilamos 250 diálogos humano-humano. Los humanos alcanzan un 95% de precisión agregada, dejando un margen significativo de mejora incluso para el mejor modelo, Gemini-3-Pro-Thinking, que logra un 72% de precisión agregada. Además, las conversaciones humanas se vuelven cada vez más específicas a medida que los interlocutores convergen en un modelo mental compartido, mientras que los diálogos de los modelos continúan explorando nuevas posibilidades en lugar de converger, lo que es consistente con una capacidad limitada para construir y mantener un modelo mental compartido robusto. Nuestro código y datos están disponibles en https://github.com/ankursikarwar/Cosmic.

English

Humans build shared spatial understanding by communicating partial, viewpoint-dependent observations. We ask whether Multimodal Large Language Models (MLLMs) can do the same, aligning distinct egocentric views through dialogue to form a coherent, allocentric mental model of a shared environment. To study this systematically, we introduce COSMIC, a benchmark for Collaborative Spatial Communication. In this setting, two static MLLM agents observe a 3D indoor environment from different viewpoints and exchange natural-language messages to solve spatial queries. COSMIC contains 899 diverse scenes and 1250 question-answer pairs spanning five tasks. We find a consistent capability hierarchy, MLLMs are most reliable at identifying shared anchor objects across views, perform worse on relational reasoning, and largely fail at building globally consistent maps, performing near chance, even for the frontier models. Moreover, we find thinking capability yields consistent gains in anchor grounding, but is insufficient for higher-level spatial communication. To contextualize model behavior, we additionally collect 250 human-human dialogues. Humans achieve 95% aggregate accuracy, leaving significant room for improvement for even the best performing model Gemini-3-Pro-Thinking which achieves 72% aggregate accuracy. Moreover, human conversations become increasingly specific as partners converge on a shared mental model, whereas model dialogues continue to explore new possibilities rather than converging, consistent with a limited ability to build and maintain a robust shared mental model. Our code and data is available at https://github.com/ankursikarwar/Cosmic

Comunicación sobre el Espacio: Integración Espacial Mediante el Lenguaje a Través de Vistas Parciales

Communicating about Space: Language-Mediated Spatial Integration Across Partial Views

Resumen

Support