TAIHRI: 근거리 인간-로봇 상호작용을 위한 작업 인식 3D 인간 관절 위치 추정
TAIHRI: Task-Aware 3D Human Keypoints Localization for Close-Range Human-Robot Interaction
April 10, 2026
저자: Ao Li, Yonggen Ling, Yiyang Lin, Yuji Wang, Yong Deng, Yansong Tang
cs.AI
초록
정확한 3D 인간 관절 위치 추정은 로봇이 사용자와 자연스럽고 안전한 물리적 상호작용을 달성할 수 있게 하는 핵심 기술입니다. 기존 3D 인간 관절 추정 방법은 주로 루트 관절(root joint)을 기준으로 한 전신 재구성 품질에 중점을 둡니다. 그러나 실제 인간-로봇 상호작용(HRI) 시나리오에서는 로봇이 자기중심적 카메라 3D 좌표계 내에서 작업과 관련된 신체 부위의 정밀한 미터 단위 공간 위치 파악에 더 관심을 가집니다. 우리는 근거리 HRI 인식을 위해 특화된 최초의 비전-언어 모델(VLM)인 TAIHRI를 제안합니다. TAIHRI는 사용자의 동작 명령을 이해하고 로봇의 주의를 가장 작업 관련성이 높은 관절로 이끌 수 있습니다. 3D 관절을 유한한 상호작용 공간으로 양자화함으로써, TAIHRI는 다음 토큰 예측을 통한 2D 관절 추론으로 중요 신체 부위의 3D 공간 좌표를 정밀하게 위치 파악하며, 자연어 제어 또는 전역 공간 인간 메쉬 복원과 같은 다운스트림 작업에 원활하게 적응합니다. 자기중심적 상호작용 벤치마크에 대한 실험은 TAIHRI가 작업에 중요한 신체 부위에 대해 우수한 추정 정확도를 달성함을 보여줍니다. 우리는 TAIHRI가 구현화된 인간-로봇 상호작용 분야에서 새로운 연구 경로를 열 것이라고 믿습니다. 코드는 https://github.com/Tencent/TAIHRI에서 확인할 수 있습니다.
English
Accurate 3D human keypoints localization is a critical technology enabling robots to achieve natural and safe physical interaction with users. Conventional 3D human keypoints estimation methods primarily focus on the whole-body reconstruction quality relative to the root joint. However, in practical human-robot interaction (HRI) scenarios, robots are more concerned with the precise metric-scale spatial localization of task-relevant body parts under the egocentric camera 3D coordinate. We propose TAIHRI, the first Vision-Language Model (VLM) tailored for close-range HRI perception, capable of understanding users' motion commands and directing the robot's attention to the most task-relevant keypoints. By quantizing 3D keypoints into a finite interaction space, TAIHRI precisely localize the 3D spatial coordinates of critical body parts by 2D keypoint reasoning via next token prediction, and seamlessly adapt to downstream tasks such as natural language control or global space human mesh recovery. Experiments on egocentric interaction benchmarks demonstrate that TAIHRI achieves superior estimation accuracy for task-critical body parts. We believe TAIHRI opens new research avenues in the field of embodied human-robot interaction. Code is available at: https://github.com/Tencent/TAIHRI.