TAIHRI: Localización de Puntos Clave 3D en Humanos con Conciencia de Tareas para la Interacción Humano-Robot de Corto Alcance

Resumen

La localización precisa de puntos clave humanos en 3D es una tecnología crítica que permite a los robots lograr una interacción física natural y segura con los usuarios. Los métodos convencionales de estimación de puntos clave humanos en 3D se centran principalmente en la calidad de la reconstrucción corporal completa respecto a la articulación raíz. Sin embargo, en escenarios prácticos de interacción humano-robot (HRI), los robots están más interesados en la localización espacial precisa a escala métrica de las partes del cuerpo relevantes para la tarea bajo el sistema de coordenadas 3D de la cámara egocéntrica. Proponemos TAIHRI, el primer Modelo de Visión y Lenguaje (VLM) diseñado específicamente para la percepción en HRI de corto alcance, capaz de comprender los comandos de movimiento de los usuarios y dirigir la atención del robot hacia los puntos clave más relevantes para la tarea. Al cuantizar los puntos clave 3D en un espacio de interacción finito, TAIHRI localiza con precisión las coordenadas espaciales 3D de las partes corporales críticas mediante el razonamiento de puntos clave 2D a través de la predicción del siguiente token, y se adapta perfectamente a tareas posteriores como el control por lenguaje natural o la recuperación de mallas humanas en el espacio global. Los experimentos en benchmarks de interacción egocéntrica demuestran que TAIHRI logra una precisión de estimación superior para las partes del cuerpo críticas para la tarea. Creemos que TAIHRI abre nuevas vías de investigación en el campo de la interacción humano-robot corporeizada. El código está disponible en: https://github.com/Tencent/TAIHRI.

English

Accurate 3D human keypoints localization is a critical technology enabling robots to achieve natural and safe physical interaction with users. Conventional 3D human keypoints estimation methods primarily focus on the whole-body reconstruction quality relative to the root joint. However, in practical human-robot interaction (HRI) scenarios, robots are more concerned with the precise metric-scale spatial localization of task-relevant body parts under the egocentric camera 3D coordinate. We propose TAIHRI, the first Vision-Language Model (VLM) tailored for close-range HRI perception, capable of understanding users' motion commands and directing the robot's attention to the most task-relevant keypoints. By quantizing 3D keypoints into a finite interaction space, TAIHRI precisely localize the 3D spatial coordinates of critical body parts by 2D keypoint reasoning via next token prediction, and seamlessly adapt to downstream tasks such as natural language control or global space human mesh recovery. Experiments on egocentric interaction benchmarks demonstrate that TAIHRI achieves superior estimation accuracy for task-critical body parts. We believe TAIHRI opens new research avenues in the field of embodied human-robot interaction. Code is available at: https://github.com/Tencent/TAIHRI.

TAIHRI: Localización de Puntos Clave 3D en Humanos con Conciencia de Tareas para la Interacción Humano-Robot de Corto Alcance

TAIHRI: Task-Aware 3D Human Keypoints Localization for Close-Range Human-Robot Interaction

Resumen

Support