EgoForce: 前腕ガイドによる単眼エゴセントリックカメラからのカメラ空間3D手姿勢
EgoForce: Forearm-Guided Camera-Space 3D Hand Pose from a Monocular Egocentric Camera
May 12, 2026
著者: Christen Millerdurai, Shaoxiang Wang, Yaxu Xie, Vladislav Golyanik, Didier Stricker, Alain Pagani
cs.AI
要旨
ユーザーの視点から単一のヘッドマウントカメラを用いて手の絶対的な3D姿勢と形状を再構築することは、AR/VR、テレプレゼンス、および手中心の操作タスクにおいて、センシングをコンパクトかつ邪魔にならないように保つ必要がある実用的な自己中心的インタラクションにとって極めて重要である。単眼RGB方式は進展を遂げているものの、深度スケールの曖昧性に制約され、ヘッドマウントデバイスの多様な光学構成にわたって一般化するのに苦労している。その結果、モデルは通常、デバイス固有のデータセットで広範な訓練を必要とし、その取得にはコストと労力がかかる。本稿では、これらの課題に対処するため、EgoForceを導入する。これは、ユーザーの(カメラ空間の)視点から、ロバストで絶対的な3D手の姿勢とその位置を復元する単眼3D手再構築フレームワークである。EgoForceは、魚眼、透視、および歪んだ広視野角カメラモデルにおいて、単一の統一ネットワークで動作する。本手法は、手の姿勢を安定化する微分可能な前腕表現、単一の自己中心視点から手と前腕の両方の形状を予測し深度スケールの曖昧性を緩和する統一されたアームハンドトランスフォーマー、および多様なヘッドマウントカメラモデルにわたって絶対的な3D姿勢復元を可能にするレイ空間閉形式ソルバーを組み合わせている。3つの自己中心的ベンチマークでの実験により、EgoForceが最先端の3D精度を達成し、HOT3Dデータセットにおいて従来手法と比較してカメラ空間MPJPEを最大28%削減し、カメラ構成間で一貫した性能を維持することを示す。詳細については、プロジェクトページhttps://dfki-av.github.io/EgoForceを参照されたい。
English
Reconstructing the absolute 3D pose and shape of the hands from the user's viewpoint using a single head-mounted camera is crucial for practical egocentric interaction in AR/VR, telepresence, and hand-centric manipulation tasks, where sensing must remain compact and unobtrusive. While monocular RGB methods have made progress, they remain constrained by depth-scale ambiguity and struggle to generalize across the diverse optical configurations of head-mounted devices. As a result, models typically require extensive training on device-specific datasets, which are costly and laborious to acquire. This paper addresses these challenges by introducing EgoForce, a monocular 3D hand reconstruction framework that recovers robust, absolute 3D hand pose and its position from the user's (camera-space) viewpoint. EgoForce operates across fisheye, perspective, and distorted wide-FOV camera models using a single unified network. Our approach combines a differentiable forearm representation that stabilizes hand pose, a unified arm-hand transformer that predicts both hand and forearm geometry from a single egocentric view, mitigating depth-scale ambiguity, and a ray space closed-form solver that enables absolute 3D pose recovery across diverse head-mounted camera models. Experiments on three egocentric benchmarks show that EgoForce achieves state-of-the-art 3D accuracy, reducing camera-space MPJPE by up to 28% on the HOT3D dataset compared to prior methods and maintaining consistent performance across camera configurations. For more details, visit the project page at https://dfki-av.github.io/EgoForce.