Communication sur l'espace : l'intégration spatiale médiée par le langage à travers des perspectives partielles

Résumé

Les humains développent une compréhension spatiale partagée en communiquant des observations partielles et dépendantes du point de vue. Nous nous demandons si les modèles de langage multimodaux (MLLM) peuvent en faire de même, en alignant des points de vue égocentriques distincts par le dialogue pour former un modèle mental cohérent et allocentrique d'un environnement partagé. Pour étudier cela systématiquement, nous présentons COSMIC, un benchmark pour la communication spatiale collaborative. Dans ce cadre, deux agents MLLM statiques observent un environnement intérieur en 3D sous différents angles et échangent des messages en langage naturel pour résoudre des requêtes spatiales. COSMIC contient 899 scènes diverses et 1250 paires question-réponse couvrant cinq tâches. Nous constatons une hiérarchie de capacités cohérente : les MLLM sont plus fiables pour identifier des objets d'ancrage communs entre les vues, performent moins bien sur le raisonnement relationnel et échouent largement à construire des cartes globalement cohérentes, avec des performances proches du hasard, même pour les modèles les plus avancés. De plus, nous constatons que la capacité de réflexion procure des gains constants dans l'ancrage de référence, mais est insuffisante pour une communication spatiale de plus haut niveau. Pour contextualiser le comportement des modèles, nous avons également collecté 250 dialogues humain-humain. Les humains atteignent une précision globale de 95%, laissant une marge d'amélioration significative même pour le meilleur modèle, Gemini-3-Pro-Thinking, qui atteint une précision globale de 72%. De plus, les conversations humaines deviennent de plus en plus spécifiques à mesure que les partenaires convergent vers un modèle mental partagé, tandis que les dialogues des modèles continuent d'explorer de nouvelles possibilités plutôt que de converger, ce qui est cohérent avec une capacité limitée à construire et maintenir un modèle mental partagé robuste. Notre code et nos données sont disponibles à l'adresse https://github.com/ankursikarwar/Cosmic

English

Humans build shared spatial understanding by communicating partial, viewpoint-dependent observations. We ask whether Multimodal Large Language Models (MLLMs) can do the same, aligning distinct egocentric views through dialogue to form a coherent, allocentric mental model of a shared environment. To study this systematically, we introduce COSMIC, a benchmark for Collaborative Spatial Communication. In this setting, two static MLLM agents observe a 3D indoor environment from different viewpoints and exchange natural-language messages to solve spatial queries. COSMIC contains 899 diverse scenes and 1250 question-answer pairs spanning five tasks. We find a consistent capability hierarchy, MLLMs are most reliable at identifying shared anchor objects across views, perform worse on relational reasoning, and largely fail at building globally consistent maps, performing near chance, even for the frontier models. Moreover, we find thinking capability yields consistent gains in anchor grounding, but is insufficient for higher-level spatial communication. To contextualize model behavior, we additionally collect 250 human-human dialogues. Humans achieve 95% aggregate accuracy, leaving significant room for improvement for even the best performing model Gemini-3-Pro-Thinking which achieves 72% aggregate accuracy. Moreover, human conversations become increasingly specific as partners converge on a shared mental model, whereas model dialogues continue to explore new possibilities rather than converging, consistent with a limited ability to build and maintain a robust shared mental model. Our code and data is available at https://github.com/ankursikarwar/Cosmic

Communication sur l'espace : l'intégration spatiale médiée par le langage à travers des perspectives partielles

Communicating about Space: Language-Mediated Spatial Integration Across Partial Views

Résumé

Support