인간-로봇 상호작용에서 구현적 지시 표현 이해
Embodied Referring Expression Comprehension in Human-Robot Interaction
December 6, 2025
저자: Md Mofijul Islam, Alexi Gladstone, Sujan Sarker, Ganesh Nanduru, Md Fahim, Keyan Du, Aman Chadha, Tariq Iqbal
cs.AI
초록
로봇이 인간의 작업 공간에 진입함에 따라, 직관적이고 유창한 인간-로봇 상호작용(HRI)을 가능하게 하기 위해 로봇이 구체화된 인간의 지시를 이해할 수 있는 능력이 중요하게 요구됩니다. 그러나 다양한 HRI 환경에서 자연스러운 구체화된 상호작용을 포착하는 대규모 데이터셋의 부족으로 인해 정확한 이해는 어려운 과제입니다. 기존 데이터셋은 시점 편향, 단일 시점 수집, 비언어적 제스처 커버리지 부족, 실내 환경에 대한 편중된 초점 등의 한계를 지닙니다. 이러한 문제를 해결하기 위해 우리는 실내 및 실외 환경에서 다양한 시점으로 수집된 구체화된 언어적 및 비언어적 상호작용의 대규모 데이터셋인 Refer360 데이터셋을 제시합니다. 추가적으로, 구체화된 참조 표현 이해를 향상시키기 위해 설계된 다중 양식 가이드 잔여 모듈인 MuRes를 소개합니다. MuRes는 정보 병목 현상으로 작용하여 두드러진 양식별 신호를 추출하고 사전 훈련된 표현에 이를 강화하여 하류 작업을 위한 상호 보완적 특징을 형성합니다. Refer360 데이터셋을 포함한 4개의 HRI 데이터셋에 대한 광범위한 실험을 수행하며, 현재의 다중 양식 모델들이 구체화된 상호작용을 포괄적으로 파악하지 못함을 보여줍니다. 그러나 MuRes로 이를 보강하면 성능이 지속적으로 향상됩니다. 이러한 연구 결과는 Refer360을 가치 있는 벤치마크로 확립하고, 인간 환경 내에서 운영되는 로봇의 구체화된 참조 표현 이해 능력을 발전시키기 위한 가이드 잔여 학습의 잠재력을 입증합니다.
English
As robots enter human workspaces, there is a crucial need for them to comprehend embodied human instructions, enabling intuitive and fluent human-robot interaction (HRI). However, accurate comprehension is challenging due to a lack of large-scale datasets that capture natural embodied interactions in diverse HRI settings. Existing datasets suffer from perspective bias, single-view collection, inadequate coverage of nonverbal gestures, and a predominant focus on indoor environments. To address these issues, we present the Refer360 dataset, a large-scale dataset of embodied verbal and nonverbal interactions collected across diverse viewpoints in both indoor and outdoor settings. Additionally, we introduce MuRes, a multimodal guided residual module designed to improve embodied referring expression comprehension. MuRes acts as an information bottleneck, extracting salient modality-specific signals and reinforcing them into pre-trained representations to form complementary features for downstream tasks. We conduct extensive experiments on four HRI datasets, including the Refer360 dataset, and demonstrate that current multimodal models fail to capture embodied interactions comprehensively; however, augmenting them with MuRes consistently improves performance. These findings establish Refer360 as a valuable benchmark and exhibit the potential of guided residual learning to advance embodied referring expression comprehension in robots operating within human environments.