Comunicare lo spazio: integrazione spaziale mediata dal linguaggio attraverso visioni parziali

Abstract

Gli esseri umani costruiscono una comprensione spaziale condivisa comunicando osservazioni parziali e dipendenti dal punto di vista. Ci chiediamo se i Modelli Linguistici Multimodali di Grandi Dimensioni (MLLM) possano fare lo stesso, allineando diversi punti di vista egocentrici attraverso il dialogo per formare un modello mentale coerente e allocentrico di un ambiente condiviso. Per studiarlo in modo sistematico, introduciamo COSMIC, un benchmark per la Comunicazione Spaziale Collaborativa. In questo contesto, due agenti MLLM statici osservano un ambiente interno 3D da punti di vista diversi e si scambiano messaggi in linguaggio naturale per risolvere query spaziali. COSMIC contiene 899 scene diverse e 1250 coppie domanda-risposta che coprono cinque compiti. Troviamo una gerarchia di capacità coerente: gli MLLM sono più affidabili nell'identificare oggetti di ancoraggio condivisi tra le visuali, hanno prestazioni peggiori nel ragionamento relazionale e falliscono in gran parte nella costruzione di mappe globalmente coerenti, con prestazioni vicine al caso, anche per i modelli più all'avanguardia. Inoltre, scopriamo che la capacità di ragionamento produce miglioramenti consistenti nell'ancoraggio degli oggetti, ma non è sufficiente per una comunicazione spaziale di livello superiore. Per contestualizzare il comportamento del modello, raccogliamo inoltre 250 dialoghi umano-umano. Gli umani raggiungono un'accuratezza aggregata del 95%, lasciando un margine di miglioramento significativo anche per il modello con le migliori prestazioni, Gemini-3-Pro-Thinking, che raggiunge un'accuratezza aggregata del 72%. Inoltre, le conversazioni umane diventano progressivamente più specifiche man mano che i partner convergono su un modello mentale condiviso, mentre i dialoghi dei modelli continuano a esplorare nuove possibilità invece di convergere, in linea con una capacità limitata di costruire e mantenere un modello mentale condiviso robusto. Il nostro codice e i nostri dati sono disponibili su https://github.com/ankursikarwar/Cosmic

English

Humans build shared spatial understanding by communicating partial, viewpoint-dependent observations. We ask whether Multimodal Large Language Models (MLLMs) can do the same, aligning distinct egocentric views through dialogue to form a coherent, allocentric mental model of a shared environment. To study this systematically, we introduce COSMIC, a benchmark for Collaborative Spatial Communication. In this setting, two static MLLM agents observe a 3D indoor environment from different viewpoints and exchange natural-language messages to solve spatial queries. COSMIC contains 899 diverse scenes and 1250 question-answer pairs spanning five tasks. We find a consistent capability hierarchy, MLLMs are most reliable at identifying shared anchor objects across views, perform worse on relational reasoning, and largely fail at building globally consistent maps, performing near chance, even for the frontier models. Moreover, we find thinking capability yields consistent gains in anchor grounding, but is insufficient for higher-level spatial communication. To contextualize model behavior, we additionally collect 250 human-human dialogues. Humans achieve 95% aggregate accuracy, leaving significant room for improvement for even the best performing model Gemini-3-Pro-Thinking which achieves 72% aggregate accuracy. Moreover, human conversations become increasingly specific as partners converge on a shared mental model, whereas model dialogues continue to explore new possibilities rather than converging, consistent with a limited ability to build and maintain a robust shared mental model. Our code and data is available at https://github.com/ankursikarwar/Cosmic

Comunicare lo spazio: integrazione spaziale mediata dal linguaggio attraverso visioni parziali

Communicating about Space: Language-Mediated Spatial Integration Across Partial Views

Abstract

Support