ChatPaper.aiChatPaper

Lichamelijk Begrepen Verwijzende Uitdrukkingen in Mens-Robotinteractie

Embodied Referring Expression Comprehension in Human-Robot Interaction

December 6, 2025
Auteurs: Md Mofijul Islam, Alexi Gladstone, Sujan Sarker, Ganesh Nanduru, Md Fahim, Keyan Du, Aman Chadha, Tariq Iqbal
cs.AI

Samenvatting

Naarmate robots menselijke werkruimten betreden, is het cruciaal dat ze belichaamde menselijke instructies kunnen begrijpen, om een intuïtieve en vlotte mens-robotinteractie (HRI) mogelijk te maken. Nauwkeurig begrip is echter een uitdaging door een gebrek aan grootschalige datasets die natuurlijke, belichaamde interacties in diverse HRI-situaties vastleggen. Bestaande datasets kampen met perspectiefvooroordeel, eenzijdige beeldverzameling, onvoldoende dekking van non-verbale gebaren en een overwegende focus op binnenomgevingen. Om deze problemen aan te pakken, presenteren we de Refer360-dataset, een grootschalige dataset van belichaamde verbale en non-verbale interacties, verzameld vanuit diverse gezichtspunten in zowel binnen- als buitenomgevingen. Daarnaast introduceren we MuRes, een multimodale geleide residuale module ontworpen om het begrip van belichaamde verwijzende uitdrukkingen te verbeteren. MuRes fungeert als een informatieknelpunt dat salientie, modalitiespecifieke signalen extraheert en deze versterkt in vooraf getrainde representaties om complementaire kenmerken voor downstreamtaken te vormen. We voeren uitgebreide experimenten uit op vier HRI-datasets, inclusief de Refer360-dataset, en tonen aan dat huidige multimodale modellen belichaamde interacties niet volledig kunnen vastleggen; echter, het versterken ervan met MuRes verbetert de prestaties consistent. Deze bevindingen vestigen Refer360 als een waardevolle benchmark en tonen het potentieel van geleid residueel leren aan om het begrip van belichaamde verwijzende uitdrukkingen te bevorderen bij robots die opereren in menselijke omgevingen.
English
As robots enter human workspaces, there is a crucial need for them to comprehend embodied human instructions, enabling intuitive and fluent human-robot interaction (HRI). However, accurate comprehension is challenging due to a lack of large-scale datasets that capture natural embodied interactions in diverse HRI settings. Existing datasets suffer from perspective bias, single-view collection, inadequate coverage of nonverbal gestures, and a predominant focus on indoor environments. To address these issues, we present the Refer360 dataset, a large-scale dataset of embodied verbal and nonverbal interactions collected across diverse viewpoints in both indoor and outdoor settings. Additionally, we introduce MuRes, a multimodal guided residual module designed to improve embodied referring expression comprehension. MuRes acts as an information bottleneck, extracting salient modality-specific signals and reinforcing them into pre-trained representations to form complementary features for downstream tasks. We conduct extensive experiments on four HRI datasets, including the Refer360 dataset, and demonstrate that current multimodal models fail to capture embodied interactions comprehensively; however, augmenting them with MuRes consistently improves performance. These findings establish Refer360 as a valuable benchmark and exhibit the potential of guided residual learning to advance embodied referring expression comprehension in robots operating within human environments.
PDF12December 10, 2025