Kommunikation über den Raum: Sprachvermittelte räumliche Integration über partielle Ansichten hinweg

Zusammenfassung

Menschen entwickeln ein gemeinsames räumliches Verständnis, indem sie partielle, perspektivenabhängige Beobachtungen kommunizieren. Wir untersuchen, ob Multimodale Large Language Models (MLLMs) dasselbe können – ob sie verschiedene egozentrische Ansichten durch Dialog in Einklang bringen können, um ein kohärentes, allozentrisches mentales Modell einer gemeinsamen Umgebung zu formen. Um dies systematisch zu untersuchen, stellen wir COSMIC vor, einen Benchmark für kollaborative räumliche Kommunikation. In diesem Szenario beobachten zwei statische MLLM-Agenten eine 3D-Innenraumumgebung aus verschiedenen Blickwinkeln und tauschen natürliche Sprachmitteilungen aus, um räumliche Abfragen zu lösen. COSMIC umfasst 899 verschiedene Szenen und 1250 Frage-Antwort-Paare, die sich über fünf Aufgaben erstrecken. Wir stellen eine konsistente Fähigkeitshierarchie fest: MLLMs sind am zuverlässigsten bei der Identifizierung gemeinsamer Ankerobjekte über verschiedene Ansichten hinweg, schneiden bei relationalem Schlussfolgern schlechter ab und scheitern größtenteils beim Erstellen global konsistenter Karten, wobei ihre Leistung nahezu auf Zufallsniveau liegt, selbst bei den fortschrittlichsten Modellen. Darüber hinaus stellen wir fest, dass Denkfähigkeit (Thinking) konsistente Verbesserungen bei der Ankerverankerung bringt, aber für höherwertige räumliche Kommunikation nicht ausreicht. Um das Modellverhalten zu kontextualisieren, haben wir zusätzlich 250 Mensch-zu-Mensch-Dialoge erhoben. Menschen erreichen eine Gesamtgenauigkeit von 95 %, was selbst für das beste Modell, Gemini-3-Pro-Thinking, das 72 % Gesamtgenauigkeit erreicht, signifikanten Verbesserungsspielraum lässt. Darüber hinaus werden menschliche Gespräche zunehmend spezifisch, wenn die Partner ein gemeinsames mentales Modell entwickeln, während Modell-Dialoge weiterhin neue Möglichkeiten erkunden, anstatt zu konvergieren – was mit einer begrenzten Fähigkeit übereinstimmt, ein robustes gemeinsames mentales Modell aufzubauen und aufrechtzuerhalten. Unser Code und unsere Daten sind verfügbar unter https://github.com/ankursikarwar/Cosmic.

English

Humans build shared spatial understanding by communicating partial, viewpoint-dependent observations. We ask whether Multimodal Large Language Models (MLLMs) can do the same, aligning distinct egocentric views through dialogue to form a coherent, allocentric mental model of a shared environment. To study this systematically, we introduce COSMIC, a benchmark for Collaborative Spatial Communication. In this setting, two static MLLM agents observe a 3D indoor environment from different viewpoints and exchange natural-language messages to solve spatial queries. COSMIC contains 899 diverse scenes and 1250 question-answer pairs spanning five tasks. We find a consistent capability hierarchy, MLLMs are most reliable at identifying shared anchor objects across views, perform worse on relational reasoning, and largely fail at building globally consistent maps, performing near chance, even for the frontier models. Moreover, we find thinking capability yields consistent gains in anchor grounding, but is insufficient for higher-level spatial communication. To contextualize model behavior, we additionally collect 250 human-human dialogues. Humans achieve 95% aggregate accuracy, leaving significant room for improvement for even the best performing model Gemini-3-Pro-Thinking which achieves 72% aggregate accuracy. Moreover, human conversations become increasingly specific as partners converge on a shared mental model, whereas model dialogues continue to explore new possibilities rather than converging, consistent with a limited ability to build and maintain a robust shared mental model. Our code and data is available at https://github.com/ankursikarwar/Cosmic

Kommunikation über den Raum: Sprachvermittelte räumliche Integration über partielle Ansichten hinweg

Communicating about Space: Language-Mediated Spatial Integration Across Partial Views

Zusammenfassung

Support