EgoForce: Postura 3D de la mano en el espacio de la cámara guiada por el antebrazo desde una cámara monocular egocéntrica
EgoForce: Forearm-Guided Camera-Space 3D Hand Pose from a Monocular Egocentric Camera
May 12, 2026
Autores: Christen Millerdurai, Shaoxiang Wang, Yaxu Xie, Vladislav Golyanik, Didier Stricker, Alain Pagani
cs.AI
Resumen
Reconstruir la pose y la forma 3D absoluta de las manos desde el punto de vista del usuario utilizando una única cámara montada en la cabeza es crucial para la interacción egocéntrica práctica en realidad aumentada (AR) y realidad virtual (VR), telepresencia y tareas de manipulación centradas en las manos, donde la detección debe permanecer compacta y no intrusiva. Si bien los métodos RGB monoculares han avanzado, siguen estando limitados por la ambigüedad de escala de profundidad y tienen dificultades para generalizar a través de las diversas configuraciones ópticas de los dispositivos montados en la cabeza. Como resultado, los modelos suelen requerir un entrenamiento extenso en conjuntos de datos específicos del dispositivo, cuya adquisición es costosa y laboriosa. Este artículo aborda estos desafíos introduciendo EgoForce, un marco de reconstrucción 3D de manos monocular que recupera de manera robusta la pose y la posición 3D absoluta de la mano desde el punto de vista del usuario (espacio de la cámara). EgoForce funciona a través de modelos de cámara ojo de pez, perspectiva y gran angular distorsionado (FOV) utilizando una única red unificada. Nuestro enfoque combina una representación diferenciable del antebrazo que estabiliza la pose de la mano, un transformador unificado brazo-mano que predice la geometría tanto de la mano como del antebrazo desde una única vista egocéntrica, mitigando la ambigüedad de escala de profundidad, y un solucionador de forma cerrada en el espacio de rayos que permite la recuperación de la pose 3D absoluta en diversos modelos de cámara montados en la cabeza. Los experimentos en tres puntos de referencia egocéntricos muestran que EgoForce logra una precisión 3D de última generación, reduciendo el MPJPE en el espacio de la cámara hasta en un 28% en el conjunto de datos HOT3D en comparación con métodos anteriores y manteniendo un rendimiento consistente en diferentes configuraciones de cámara. Para más detalles, visite la página del proyecto en https://dfki-av.github.io/EgoForce.
English
Reconstructing the absolute 3D pose and shape of the hands from the user's viewpoint using a single head-mounted camera is crucial for practical egocentric interaction in AR/VR, telepresence, and hand-centric manipulation tasks, where sensing must remain compact and unobtrusive. While monocular RGB methods have made progress, they remain constrained by depth-scale ambiguity and struggle to generalize across the diverse optical configurations of head-mounted devices. As a result, models typically require extensive training on device-specific datasets, which are costly and laborious to acquire. This paper addresses these challenges by introducing EgoForce, a monocular 3D hand reconstruction framework that recovers robust, absolute 3D hand pose and its position from the user's (camera-space) viewpoint. EgoForce operates across fisheye, perspective, and distorted wide-FOV camera models using a single unified network. Our approach combines a differentiable forearm representation that stabilizes hand pose, a unified arm-hand transformer that predicts both hand and forearm geometry from a single egocentric view, mitigating depth-scale ambiguity, and a ray space closed-form solver that enables absolute 3D pose recovery across diverse head-mounted camera models. Experiments on three egocentric benchmarks show that EgoForce achieves state-of-the-art 3D accuracy, reducing camera-space MPJPE by up to 28% on the HOT3D dataset compared to prior methods and maintaining consistent performance across camera configurations. For more details, visit the project page at https://dfki-av.github.io/EgoForce.