EgoForce : Pose 3D de la main dans l'espace caméra guidée par l'avant-bras à partir d'une caméra monoculaire égocentrique

Résumé

Reconstruire la pose et la forme 3D absolues des mains depuis le point de vue de l'utilisateur à l'aide d'une seule caméra montée sur la tête est crucial pour une interaction égocentrique pratique en réalité augmentée/réalité virtuelle, en téléprésence et dans les tâches de manipulation centrées sur la main, où la détection doit rester compacte et discrète. Bien que les méthodes RVB monoculaires aient progressé, elles restent limitées par l'ambiguïté d'échelle de profondeur et peinent à généraliser sur les diverses configurations optiques des dispositifs portés sur la tête. En conséquence, les modèles nécessitent généralement un entraînement intensif sur des ensembles de données spécifiques à chaque dispositif, dont l'acquisition est coûteuse et laborieuse. Cet article aborde ces défis en introduisant EgoForce, un cadre de reconstruction 3D monoculaire de la main qui récupère de manière robuste la pose et la position 3D absolues de la main depuis le point de vue (dans l'espace caméra) de l'utilisateur. EgoForce fonctionne sur des modèles de caméra fisheye, perspective et à grand champ de vision déformé en utilisant un seul réseau unifié. Notre approche combine une représentation différentiable de l'avant-bras qui stabilise la pose de la main, un transformateur unifié bras-main qui prédit à la fois la géométrie de la main et de l'avant-bras à partir d'une seule vue égocentrique, atténuant ainsi l'ambiguïté d'échelle de profondeur, et un solveur en forme fermée dans l'espace des rayons qui permet la récupération de la pose 3D absolue sur divers modèles de caméra portée sur la tête. Les expériences menées sur trois références égocentriques montrent qu'EgoForce atteint une précision 3D de pointe, réduisant le MPJPE dans l'espace caméra jusqu'à 28 % sur l'ensemble de données HOT3D par rapport aux méthodes antérieures et maintenant des performances constantes sur différentes configurations de caméra. Pour plus de détails, visitez la page du projet à l'adresse https://dfki-av.github.io/EgoForce.

English

Reconstructing the absolute 3D pose and shape of the hands from the user's viewpoint using a single head-mounted camera is crucial for practical egocentric interaction in AR/VR, telepresence, and hand-centric manipulation tasks, where sensing must remain compact and unobtrusive. While monocular RGB methods have made progress, they remain constrained by depth-scale ambiguity and struggle to generalize across the diverse optical configurations of head-mounted devices. As a result, models typically require extensive training on device-specific datasets, which are costly and laborious to acquire. This paper addresses these challenges by introducing EgoForce, a monocular 3D hand reconstruction framework that recovers robust, absolute 3D hand pose and its position from the user's (camera-space) viewpoint. EgoForce operates across fisheye, perspective, and distorted wide-FOV camera models using a single unified network. Our approach combines a differentiable forearm representation that stabilizes hand pose, a unified arm-hand transformer that predicts both hand and forearm geometry from a single egocentric view, mitigating depth-scale ambiguity, and a ray space closed-form solver that enables absolute 3D pose recovery across diverse head-mounted camera models. Experiments on three egocentric benchmarks show that EgoForce achieves state-of-the-art 3D accuracy, reducing camera-space MPJPE by up to 28% on the HOT3D dataset compared to prior methods and maintaining consistent performance across camera configurations. For more details, visit the project page at https://dfki-av.github.io/EgoForce.

EgoForce : Pose 3D de la main dans l'espace caméra guidée par l'avant-bras à partir d'une caméra monoculaire égocentrique

EgoForce: Forearm-Guided Camera-Space 3D Hand Pose from a Monocular Egocentric Camera

Résumé

Support