ChatPaper.aiChatPaper

Понимание воплощенных референтных выражений в человеко-роботном взаимодействии

Embodied Referring Expression Comprehension in Human-Robot Interaction

December 6, 2025
Авторы: Md Mofijul Islam, Alexi Gladstone, Sujan Sarker, Ganesh Nanduru, Md Fahim, Keyan Du, Aman Chadha, Tariq Iqbal
cs.AI

Аннотация

По мере внедрения роботов в человеческие рабочие пространства возникает острая необходимость в том, чтобы они понимали воплощенные (основанные на телесном опыте) инструкции человека, что обеспечивает интуитивное и плавное взаимодействие человека и робота (HRI). Однако точное понимание является сложной задачей из-за отсутствия крупномасштабных наборов данных, фиксирующих естественное воплощенное взаимодействие в различных сценариях HRI. Существующие наборы данных страдают от перспективного смещения, сбора данных с единственного ракурса, недостаточного охвата невербальных жестов и преимущественной ориентации на внутренние помещения. Для решения этих проблем мы представляем набор данных Refer360 — крупномасштабный набор данных о воплощенном вербальном и невербальном взаимодействии, собранный с различных точек обзора в условиях как внутренних, так и внешних пространств. Кроме того, мы представляем MuRes, мультимодальный управляемый остаточный модуль, предназначенный для улучшения понимания воплощенных референциальных выражений. MuRes действует как информационное «бутылочное горлышко», извлекая существенные модально-специфические сигналы и усиливая ими предварительно обученные представления для формирования комплементарных признаков для последующих задач. Мы проводим обширные эксперименты на четырех наборах данных HRI, включая Refer360, и демонстрируем, что современные мультимодальные модели не способны всесторонне охватывать воплощенное взаимодействие; однако их дополнение модулем MuRes последовательно улучшает производительность. Эти результаты устанавливают Refer360 в качестве ценного эталона и демонстрируют потенциал управляемого остаточного обучения для прогресса в понимании воплощенных референциальных выражений роботами, функционирующими в человеческой среде.
English
As robots enter human workspaces, there is a crucial need for them to comprehend embodied human instructions, enabling intuitive and fluent human-robot interaction (HRI). However, accurate comprehension is challenging due to a lack of large-scale datasets that capture natural embodied interactions in diverse HRI settings. Existing datasets suffer from perspective bias, single-view collection, inadequate coverage of nonverbal gestures, and a predominant focus on indoor environments. To address these issues, we present the Refer360 dataset, a large-scale dataset of embodied verbal and nonverbal interactions collected across diverse viewpoints in both indoor and outdoor settings. Additionally, we introduce MuRes, a multimodal guided residual module designed to improve embodied referring expression comprehension. MuRes acts as an information bottleneck, extracting salient modality-specific signals and reinforcing them into pre-trained representations to form complementary features for downstream tasks. We conduct extensive experiments on four HRI datasets, including the Refer360 dataset, and demonstrate that current multimodal models fail to capture embodied interactions comprehensively; however, augmenting them with MuRes consistently improves performance. These findings establish Refer360 as a valuable benchmark and exhibit the potential of guided residual learning to advance embodied referring expression comprehension in robots operating within human environments.
PDF12December 10, 2025