Коммуникация о пространстве: языковое опосредование пространственной интеграции при частичных обзорах

Аннотация

Люди формируют общее пространственное понимание путем коммуникации частичных, зависящих от точки зрения наблюдений. Мы исследуем, способны ли Мультимодальные Большие Языковые Модели (MLLM) делать то же самое — согласовывать различные эгоцентричные перспективы через диалог для формирования последовательной, аллоцентричной ментальной модели общего окружения. Для систематического изучения этого мы представляем COSMIC, эталонный набор данных для исследования коллаборативной пространственной коммуникации. В этой постановке две статичные MLLM-агенты наблюдают за 3D-интерьером с разных точек обзора и обмениваются сообщениями на естественном языке для решения пространственных запросов. COSMIC содержит 899 разнообразных сцен и 1250 пар "вопрос-ответ", охватывающих пять типов задач. Мы выявляем устойчивую иерархию способностей: MLLM наиболее надежны в идентификации общих объектов-якорей между перспективами, хуже справляются с реляционными рассуждениями и в значительной степени не способны строить глобально согласованные карты, показывая результаты близкие к случайным, даже для передовых моделей. Более того, мы обнаруживаем, что способность к "размышлениям" дает стабильное преимущество в закреплении якорей, но недостаточна для пространственной коммуникации более высокого уровня. Чтобы контекстуализировать поведение моделей, мы дополнительно собрали 250 диалогов "человек-человек". Люди достигают совокупной точности в 95%, что оставляет значительный простор для улучшения даже для лучшей модели Gemini-3-Pro-Thinking, которая показывает совокупную точность 72%. Более того, человеческие беседы становятся более конкретными по мере того, как партнеры приходят к общей ментальной модели, тогда как диалоги моделей продолжают исследовать новые возможности вместо конвергенции, что согласуется с ограниченной способностью строить и поддерживать устойчивую общую ментальную модель. Наш код и данные доступны по адресу https://github.com/ankursikarwar/Cosmic.

English

Humans build shared spatial understanding by communicating partial, viewpoint-dependent observations. We ask whether Multimodal Large Language Models (MLLMs) can do the same, aligning distinct egocentric views through dialogue to form a coherent, allocentric mental model of a shared environment. To study this systematically, we introduce COSMIC, a benchmark for Collaborative Spatial Communication. In this setting, two static MLLM agents observe a 3D indoor environment from different viewpoints and exchange natural-language messages to solve spatial queries. COSMIC contains 899 diverse scenes and 1250 question-answer pairs spanning five tasks. We find a consistent capability hierarchy, MLLMs are most reliable at identifying shared anchor objects across views, perform worse on relational reasoning, and largely fail at building globally consistent maps, performing near chance, even for the frontier models. Moreover, we find thinking capability yields consistent gains in anchor grounding, but is insufficient for higher-level spatial communication. To contextualize model behavior, we additionally collect 250 human-human dialogues. Humans achieve 95% aggregate accuracy, leaving significant room for improvement for even the best performing model Gemini-3-Pro-Thinking which achieves 72% aggregate accuracy. Moreover, human conversations become increasingly specific as partners converge on a shared mental model, whereas model dialogues continue to explore new possibilities rather than converging, consistent with a limited ability to build and maintain a robust shared mental model. Our code and data is available at https://github.com/ankursikarwar/Cosmic

Коммуникация о пространстве: языковое опосредование пространственной интеграции при частичных обзорах

Communicating about Space: Language-Mediated Spatial Integration Across Partial Views

Аннотация

Support