TAIHRI: Localizzazione 3D dei Punti Chiave Umani con Consapevolezza del Compito per l'Interazione Uomo-Robot a Corto Raggio

Abstract

La localizzazione accurata dei keypoint umani 3D è una tecnologia fondamentale che consente ai robot di ottenere un'interazione fisica naturale e sicura con gli utenti. I metodi convenzionali di stima dei keypoint umani 3D si concentrano principalmente sulla qualità della ricostruzione corporea totale rispetto all'articolazione radice. Tuttavia, negli scenari pratici di interazione uomo-robot (HRI), i robot sono maggiormente interessati alla localizzazione spaziale precisa in scala metrica delle parti del corpo rilevanti per il compito, nel sistema di coordinate 3D della camera egocentrica. Proponiamo TAIHRI, il primo modello visione-linguaggio (VLM) sviluppato specificamente per la percezione HRI a corto raggio, in grado di comprendere i comandi di movimento degli utenti e dirigere l'attenzione del robot verso i keypoint più rilevanti per il compito. Quantizzando i keypoint 3D in uno spazio d'interazione finito, TAIHRI localizza con precisione le coordinate spaziali 3D delle parti corporee critiche mediante ragionamento sui keypoint 2D tramite previsione del token successivo, e si adatta perfettamente a compiti downstream come il controllo tramite linguaggio naturale o la ricostruzione globale della mesh umana nello spazio. Esperimenti su benchmark di interazione egocentrica dimostrano che TAIHRI raggiunge un'accuratezza di stima superiore per le parti del corpo critiche per il compito. Riteniamo che TAIHRI apra nuove strade di ricerca nel campo dell'interazione uomo-robot incarnata. Il codice è disponibile all'indirizzo: https://github.com/Tencent/TAIHRI.

English

Accurate 3D human keypoints localization is a critical technology enabling robots to achieve natural and safe physical interaction with users. Conventional 3D human keypoints estimation methods primarily focus on the whole-body reconstruction quality relative to the root joint. However, in practical human-robot interaction (HRI) scenarios, robots are more concerned with the precise metric-scale spatial localization of task-relevant body parts under the egocentric camera 3D coordinate. We propose TAIHRI, the first Vision-Language Model (VLM) tailored for close-range HRI perception, capable of understanding users' motion commands and directing the robot's attention to the most task-relevant keypoints. By quantizing 3D keypoints into a finite interaction space, TAIHRI precisely localize the 3D spatial coordinates of critical body parts by 2D keypoint reasoning via next token prediction, and seamlessly adapt to downstream tasks such as natural language control or global space human mesh recovery. Experiments on egocentric interaction benchmarks demonstrate that TAIHRI achieves superior estimation accuracy for task-critical body parts. We believe TAIHRI opens new research avenues in the field of embodied human-robot interaction. Code is available at: https://github.com/Tencent/TAIHRI.

TAIHRI: Localizzazione 3D dei Punti Chiave Umani con Consapevolezza del Compito per l'Interazione Uomo-Robot a Corto Raggio

TAIHRI: Task-Aware 3D Human Keypoints Localization for Close-Range Human-Robot Interaction

Abstract

Support