人間-ロボット相互作用における身体化参照表現理解
Embodied Referring Expression Comprehension in Human-Robot Interaction
December 6, 2025
著者: Md Mofijul Islam, Alexi Gladstone, Sujan Sarker, Ganesh Nanduru, Md Fahim, Keyan Du, Aman Chadha, Tariq Iqbal
cs.AI
要旨
ロボットが人間の作業空間に進出するにつれ、彼らが身体化された人間の指示を理解し、直感的で流暢な人間-ロボット相互作用(HRI)を実現することが極めて重要となっている。しかし、多様なHRI環境における自然な身体化インタラクションを捉えた大規模データセットの不足により、正確な理解は困難な課題である。既存のデータセットは、視点バイアス、単一視点での収集、非言語的ジェスチャーの不十分なカバレッジ、屋内環境への偏重といった問題を抱えている。これらの問題を解決するため、本論文ではRefer360データセットを提案する。これは屋内・屋外の両設定で多様な視点から収集された、身体化された言語的・非言語的インタラクションの大規模データセットである。さらに、身体化参照表現理解を改善するために設計されたマルチモーダル誘導残差モジュール「MuRes」を導入する。MuResは情報ボトルネックとして機能し、注目すべきモダリティ固有の信号を抽出し、事前学習済み表現に強化して統合し、下流タスクのための相補的特徴を形成する。Refer360データセットを含む4つのHRIデータセットで大規模な実験を行い、現在のマルチモーダルモデルは身体化インタラクションを包括的に捉えることに失敗しているものの、MuResで拡張することで性能が一貫して向上することを実証する。これらの知見は、Refer360が貴重なベンチマークであることを示すとともに、人間環境で動作するロボットの身体化参照表現理解を進歩させる誘導残差学習の可能性を示している。
English
As robots enter human workspaces, there is a crucial need for them to comprehend embodied human instructions, enabling intuitive and fluent human-robot interaction (HRI). However, accurate comprehension is challenging due to a lack of large-scale datasets that capture natural embodied interactions in diverse HRI settings. Existing datasets suffer from perspective bias, single-view collection, inadequate coverage of nonverbal gestures, and a predominant focus on indoor environments. To address these issues, we present the Refer360 dataset, a large-scale dataset of embodied verbal and nonverbal interactions collected across diverse viewpoints in both indoor and outdoor settings. Additionally, we introduce MuRes, a multimodal guided residual module designed to improve embodied referring expression comprehension. MuRes acts as an information bottleneck, extracting salient modality-specific signals and reinforcing them into pre-trained representations to form complementary features for downstream tasks. We conduct extensive experiments on four HRI datasets, including the Refer360 dataset, and demonstrate that current multimodal models fail to capture embodied interactions comprehensively; however, augmenting them with MuRes consistently improves performance. These findings establish Refer360 as a valuable benchmark and exhibit the potential of guided residual learning to advance embodied referring expression comprehension in robots operating within human environments.