EgoForce: 단일 시점 자기중심 카메라를 사용한 전완 유도 카메라 공간 3D 손 자세 추정
EgoForce: Forearm-Guided Camera-Space 3D Hand Pose from a Monocular Egocentric Camera
May 12, 2026
저자: Christen Millerdurai, Shaoxiang Wang, Yaxu Xie, Vladislav Golyanik, Didier Stricker, Alain Pagani
cs.AI
초록
사용자 시점에서 단일 헤드 마운트 카메라를 사용하여 손의 절대적인 3D 포즈와 형태를 재구성하는 것은 AR/VR, 텔레프레즌스 및 손 중심 조작 작업에서 실용적인 자기중심적 상호작용을 위해 필수적이며, 이때 센싱은 소형화되고 방해되지 않아야 한다. 단안 RGB 방법이 진전을 이루었지만, 깊이-스케일 모호성에 제약을 받고 헤드 마운트 장치의 다양한 광학 구성에 일반화하는 데 어려움을 겪는다. 결과적으로 모델은 일반적으로 장치별 데이터셋에 대한 광범위한 학습을 필요로 하며, 이러한 데이터셋은 획득 비용과 노력이 많이 든다. 본 논문은 이러한 문제를 해결하기 위해 EgoForce를 소개한다. EgoForce는 사용자(카메라 공간) 시점에서 강건하고 절대적인 3D 손 포즈와 위치를 복원하는 단안 3D 손 재구성 프레임워크이다. EgoForce는 단일 통합 네트워크를 사용하여 어안, 원근 및 왜곡된 광시야각 카메라 모델에서 작동한다. 우리의 접근 방식은 손 포즈를 안정화하는 미분 가능한 전완 표상, 단일 자기중심적 시점에서 손과 전완 기하학을 모두 예측하여 깊이-스케일 모호성을 완화하는 통합 팔-손 변환기, 그리고 다양한 헤드 마운트 카메라 모델에서 절대적인 3D 포즈 복원을 가능하게 하는 광선 공간 폐쇄형 솔버를 결합한다. 세 가지 자기중심적 벤치마크에 대한 실험 결과, EgoForce는 최신 3D 정확도를 달성하여 HOT3D 데이터셋에서 이전 방법 대비 카메라 공간 MPJPE를 최대 28% 감소시키고 카메라 구성 전반에 걸쳐 일관된 성능을 유지한다. 자세한 내용은 프로젝트 페이지(https://dfki-av.github.io/EgoForce)를 참조하십시오.
English
Reconstructing the absolute 3D pose and shape of the hands from the user's viewpoint using a single head-mounted camera is crucial for practical egocentric interaction in AR/VR, telepresence, and hand-centric manipulation tasks, where sensing must remain compact and unobtrusive. While monocular RGB methods have made progress, they remain constrained by depth-scale ambiguity and struggle to generalize across the diverse optical configurations of head-mounted devices. As a result, models typically require extensive training on device-specific datasets, which are costly and laborious to acquire. This paper addresses these challenges by introducing EgoForce, a monocular 3D hand reconstruction framework that recovers robust, absolute 3D hand pose and its position from the user's (camera-space) viewpoint. EgoForce operates across fisheye, perspective, and distorted wide-FOV camera models using a single unified network. Our approach combines a differentiable forearm representation that stabilizes hand pose, a unified arm-hand transformer that predicts both hand and forearm geometry from a single egocentric view, mitigating depth-scale ambiguity, and a ray space closed-form solver that enables absolute 3D pose recovery across diverse head-mounted camera models. Experiments on three egocentric benchmarks show that EgoForce achieves state-of-the-art 3D accuracy, reducing camera-space MPJPE by up to 28% on the HOT3D dataset compared to prior methods and maintaining consistent performance across camera configurations. For more details, visit the project page at https://dfki-av.github.io/EgoForce.