Comprensione delle Espressioni Referenziali Incorporate nell'Interazione Uomo-Robot
Embodied Referring Expression Comprehension in Human-Robot Interaction
December 6, 2025
Autori: Md Mofijul Islam, Alexi Gladstone, Sujan Sarker, Ganesh Nanduru, Md Fahim, Keyan Du, Aman Chadha, Tariq Iqbal
cs.AI
Abstract
Man mano che i robot entrano negli spazi di lavoro umani, diventa cruciale la necessità che comprendano le istruzioni incarnate degli esseri umani, permettendo un'interazione uomo-robot (HRI) intuitiva e fluida. Tuttavia, una comprensione accurata è difficile a causa della mancanza di dataset su larga scala che catturino interazioni incarnate naturali in diversi contesti HRI. I dataset esistenti presentano bias prospettico, raccolta da visuale singola, copertura inadeguata dei gesti non verbali e una predominante focalizzazione su ambienti indoor. Per affrontare questi problemi, presentiamo il dataset Refer360, un dataset su larga scala di interazioni verbali e non verbali incarnate, raccolto da diverse prospettive in ambienti sia indoor che outdoor. Inoltre, introduciamo MuRes, un modulo residuo guidato multimodale progettato per migliorare la comprensione delle espressioni referenziali incarnate. MuRes funge da collo di bottiglia informativo, estraendo segnali salienti specifici per modalità e rinforzandoli all'interno di rappresentazioni pre-addestrate per formare caratteristiche complementari per i task a valle. Conduciamo esperimenti estesi su quattro dataset HRI, incluso il dataset Refer360, e dimostriamo che gli attuali modelli multimodali non riescono a catturare in modo completo le interazioni incarnate; tuttavia, potenziarli con MuRes migliora costantemente le prestazioni. Questi risultati stabiliscono Refer360 come un benchmark prezioso e mostrano il potenziale dell'apprendimento residuo guidato per far progredire la comprensione delle espressioni referenziali incarnate in robot che operano all'interno di ambienti umani.
English
As robots enter human workspaces, there is a crucial need for them to comprehend embodied human instructions, enabling intuitive and fluent human-robot interaction (HRI). However, accurate comprehension is challenging due to a lack of large-scale datasets that capture natural embodied interactions in diverse HRI settings. Existing datasets suffer from perspective bias, single-view collection, inadequate coverage of nonverbal gestures, and a predominant focus on indoor environments. To address these issues, we present the Refer360 dataset, a large-scale dataset of embodied verbal and nonverbal interactions collected across diverse viewpoints in both indoor and outdoor settings. Additionally, we introduce MuRes, a multimodal guided residual module designed to improve embodied referring expression comprehension. MuRes acts as an information bottleneck, extracting salient modality-specific signals and reinforcing them into pre-trained representations to form complementary features for downstream tasks. We conduct extensive experiments on four HRI datasets, including the Refer360 dataset, and demonstrate that current multimodal models fail to capture embodied interactions comprehensively; however, augmenting them with MuRes consistently improves performance. These findings establish Refer360 as a valuable benchmark and exhibit the potential of guided residual learning to advance embodied referring expression comprehension in robots operating within human environments.