TAIHRI: Localização de Pontos-Chave 3D em Humanos com Consciência da Tarefa para Interação Humano-Robô de Curto Alcance

Resumo

A localização precisa de pontos-chave humanos em 3D é uma tecnologia crítica que permite aos robôs alcançar interação física natural e segura com os utilizadores. Os métodos convencionais de estimativa de pontos-chave humanos em 3D focam-se principalmente na qualidade da reconstrução corporal em relação à articulação raiz. No entanto, em cenários práticos de interação homem-robô (HRI), os robôs estão mais preocupados com a localização espacial precisa em escala métrica das partes do corpo relevantes para a tarefa, sob o sistema de coordenadas 3D da câmara egocêntrica. Propomos o TAIHRI, o primeiro Modelo de Visão e Linguagem (VLM) desenvolvido para perceção de HRI em curta distância, capaz de compreender os comandos de movimento dos utilizadores e direcionar a atenção do robô para os pontos-chave mais relevantes para a tarefa. Ao quantizar os pontos-chave 3D num espaço de interação finito, o TAIHRI localiza com precisão as coordenadas espaciais 3D das partes críticas do corpo através do raciocínio sobre pontos-chave 2D via previsão do próximo token, e adapta-se perfeitamente a tarefas subsequentes, como controlo por linguagem natural ou recuperação da malha humana no espaço global. Experiências em benchmarks de interação egocêntrica demonstram que o TAIHRI alcança uma precisão de estimativa superior para as partes do corpo críticas para a tarefa. Acreditamos que o TAIHRI abre novas vias de investigação no campo da interação homem-robô incorporada. O código está disponível em: https://github.com/Tencent/TAIHRI.

English

Accurate 3D human keypoints localization is a critical technology enabling robots to achieve natural and safe physical interaction with users. Conventional 3D human keypoints estimation methods primarily focus on the whole-body reconstruction quality relative to the root joint. However, in practical human-robot interaction (HRI) scenarios, robots are more concerned with the precise metric-scale spatial localization of task-relevant body parts under the egocentric camera 3D coordinate. We propose TAIHRI, the first Vision-Language Model (VLM) tailored for close-range HRI perception, capable of understanding users' motion commands and directing the robot's attention to the most task-relevant keypoints. By quantizing 3D keypoints into a finite interaction space, TAIHRI precisely localize the 3D spatial coordinates of critical body parts by 2D keypoint reasoning via next token prediction, and seamlessly adapt to downstream tasks such as natural language control or global space human mesh recovery. Experiments on egocentric interaction benchmarks demonstrate that TAIHRI achieves superior estimation accuracy for task-critical body parts. We believe TAIHRI opens new research avenues in the field of embodied human-robot interaction. Code is available at: https://github.com/Tencent/TAIHRI.

TAIHRI: Localização de Pontos-Chave 3D em Humanos com Consciência da Tarefa para Interação Humano-Robô de Curto Alcance

TAIHRI: Task-Aware 3D Human Keypoints Localization for Close-Range Human-Robot Interaction

Resumo

Support