Comprensión de Expresiones de Referencia Corporizadas en la Interacción Humano-Robot
Embodied Referring Expression Comprehension in Human-Robot Interaction
December 6, 2025
Autores: Md Mofijul Islam, Alexi Gladstone, Sujan Sarker, Ganesh Nanduru, Md Fahim, Keyan Du, Aman Chadha, Tariq Iqbal
cs.AI
Resumen
A medida que los robots se integran en entornos humanos de trabajo, existe una necesidad crítica de que comprendan instrucciones corporizadas, permitiendo una interacción humano-robot (HRI) intuitiva y fluida. Sin embargo, la comprensión precisa es un desafío debido a la falta de conjuntos de datos a gran escala que capturen interacciones corporizadas naturales en diversos escenarios de HRI. Los conjuntos de datos existentes adolecen de sesgo de perspectiva, recopilación desde una única vista, cobertura inadecuada de gestos no verbales y un enfoque predominante en entornos interiores. Para abordar estos problemas, presentamos el conjunto de datos Refer360, un conjunto de datos a gran escala de interacciones verbales y no verbales corporizadas, recopilado desde diversos puntos de vista en entornos tanto interiores como exteriores. Adicionalmente, presentamos MuRes, un módulo residual guiado multimodal diseñado para mejorar la comprensión de expresiones de referencia corporizadas. MuRes actúa como un cuello de botella de información, extrayendo señales salientes específicas de cada modalidad y reforzándolas en representaciones preentrenadas para formar características complementarias para tareas posteriores. Realizamos experimentos exhaustivos en cuatro conjuntos de datos de HRI, incluido el conjunto de datos Refer360, y demostramos que los modelos multimodales actuales no logran capturar las interacciones corporizadas de manera integral; sin embargo, al aumentarlos con MuRes se mejora consistentemente el rendimiento. Estos hallazgos establecen a Refer360 como un punto de referencia valioso y exhiben el potencial del aprendizaje residual guiado para avanzar en la comprensión de expresiones de referencia corporizadas en robots que operan dentro de entornos humanos.
English
As robots enter human workspaces, there is a crucial need for them to comprehend embodied human instructions, enabling intuitive and fluent human-robot interaction (HRI). However, accurate comprehension is challenging due to a lack of large-scale datasets that capture natural embodied interactions in diverse HRI settings. Existing datasets suffer from perspective bias, single-view collection, inadequate coverage of nonverbal gestures, and a predominant focus on indoor environments. To address these issues, we present the Refer360 dataset, a large-scale dataset of embodied verbal and nonverbal interactions collected across diverse viewpoints in both indoor and outdoor settings. Additionally, we introduce MuRes, a multimodal guided residual module designed to improve embodied referring expression comprehension. MuRes acts as an information bottleneck, extracting salient modality-specific signals and reinforcing them into pre-trained representations to form complementary features for downstream tasks. We conduct extensive experiments on four HRI datasets, including the Refer360 dataset, and demonstrate that current multimodal models fail to capture embodied interactions comprehensively; however, augmenting them with MuRes consistently improves performance. These findings establish Refer360 as a valuable benchmark and exhibit the potential of guided residual learning to advance embodied referring expression comprehension in robots operating within human environments.