EgoForce: Определение 3D позы кисти в пространстве камеры с использованием предплечья по данным монокулярной эгоцентрической камеры

Аннотация

Реконструкция абсолютной 3D-позы и формы кистей рук с точки зрения пользователя с помощью одной наголовной камеры имеет решающее значение для практического эгоцентрического взаимодействия в AR/VR, телеприсутствии и манипуляционных задачах, ориентированных на работу кистей, где сенсорные системы должны оставаться компактными и ненавязчивыми. Хотя монокулярные RGB-методы достигли определенного прогресса, они по-прежнему ограничены неоднозначностью пространственного масштаба и с трудом обобщаются на различные оптические конфигурации наголовных устройств. В результате модели обычно требуют обширного обучения на наборах данных, специфичных для конкретного устройства, что дорого и трудоемко. Данная работа решает эти проблемы, представляя EgoForce — монокулярную платформу для реконструкции 3D-кистей, которая восстанавливает устойчивую абсолютную 3D-позу кисти и ее положение с точки зрения пользователя (в пространстве камеры). EgoForce работает с моделями камер типа «рыбий глаз», перспективными и дисторсированными широкоугольными камерами, используя единую унифицированную сеть. Наш подход объединяет дифференцируемое представление предплечья, стабилизирующее позу кисти, унифицированный трансформер рука-кисть, предсказывающий геометрию как кисти, так и предплечья с одного эгоцентрического вида, что смягчает неоднозначность пространственного масштаба, и замкнутый решатель в лучевом пространстве, позволяющий восстанавливать абсолютную 3D-позу для различных моделей наголовных камер. Эксперименты на трех эгоцентрических эталонных наборах данных показывают, что EgoForce достигает современной 3D-точности, снижая MPJPE в пространстве камеры до 28% на наборе данных HOT3D по сравнению с предыдущими методами и обеспечивая стабильную производительность на различных конфигурациях камер. Подробнее см. на странице проекта: https://dfki-av.github.io/EgoForce.

English

Reconstructing the absolute 3D pose and shape of the hands from the user's viewpoint using a single head-mounted camera is crucial for practical egocentric interaction in AR/VR, telepresence, and hand-centric manipulation tasks, where sensing must remain compact and unobtrusive. While monocular RGB methods have made progress, they remain constrained by depth-scale ambiguity and struggle to generalize across the diverse optical configurations of head-mounted devices. As a result, models typically require extensive training on device-specific datasets, which are costly and laborious to acquire. This paper addresses these challenges by introducing EgoForce, a monocular 3D hand reconstruction framework that recovers robust, absolute 3D hand pose and its position from the user's (camera-space) viewpoint. EgoForce operates across fisheye, perspective, and distorted wide-FOV camera models using a single unified network. Our approach combines a differentiable forearm representation that stabilizes hand pose, a unified arm-hand transformer that predicts both hand and forearm geometry from a single egocentric view, mitigating depth-scale ambiguity, and a ray space closed-form solver that enables absolute 3D pose recovery across diverse head-mounted camera models. Experiments on three egocentric benchmarks show that EgoForce achieves state-of-the-art 3D accuracy, reducing camera-space MPJPE by up to 28% on the HOT3D dataset compared to prior methods and maintaining consistent performance across camera configurations. For more details, visit the project page at https://dfki-av.github.io/EgoForce.

EgoForce: Определение 3D позы кисти в пространстве камеры с использованием предплечья по данным монокулярной эгоцентрической камеры

EgoForce: Forearm-Guided Camera-Space 3D Hand Pose from a Monocular Egocentric Camera

Аннотация

Support