EgoForce: Unterarm-geführte 3D-Handposenschätzung im Kameraraum aus einer monokularen egozentrischen Kamera

Zusammenfassung

Rekonstruktion der absoluten 3D-Pose und -Form der Hände aus der Perspektive des Nutzers mit einer einzelnen am Kopf montierten Kamera ist entscheidend für praktische egozentrische Interaktion in AR/VR, Telepräsenz und handzentrierten Manipulationsaufgaben, bei denen die Sensorik kompakt und unauffällig bleiben muss. Während monokulare RGB-Methoden Fortschritte erzielt haben, sind sie weiterhin durch die Tiefenmaßstabsmehrdeutigkeit eingeschränkt und haben Schwierigkeiten, sich über die verschiedenen optischen Konfigurationen von Kopfmontierten Geräten hinweg zu verallgemeinern. Infolgedessen benötigen Modelle typischerweise umfangreiches Training auf gerätespezifischen Datensätzen, deren Erfassung kostspielig und mühsam ist. Dieser Artikel begegnet diesen Herausforderungen mit der Einführung von EgoForce, einem monokularen 3D-Handrekonstruktionsframework, das robuste, absolute 3D-Handpose und deren Position aus der Perspektive des Nutzers (Kameraraum) wiederherstellt. EgoForce arbeitet mit Fischaugen-, Perspektiv- und verzerrten Weitwinkel-Kameramodellen unter Verwendung eines einzigen einheitlichen Netzwerks. Unser Ansatz kombiniert eine differenzierbare Unterarmdarstellung, die die Handpose stabilisiert, einen einheitlichen Arm-Hand-Transformer, der sowohl Hand- als auch Unterarmgeometrie aus einer einzigen egozentrischen Ansicht vorhersagt und so die Tiefenmaßstabsmehrdeutigkeit mildert, sowie einen Ray-Space-Löser in geschlossener Form, der die absolute 3D-Pose-Rekonstruktion über verschiedene kopfmontierte Kameramodelle hinweg ermöglicht. Experimente an drei egozentrischen Benchmarks zeigen, dass EgoForce eine 3D-Genauigkeit auf dem modernsten Stand der Technik erreicht, den kamerabezogenen MPJPE im HOT3D-Datensatz um bis zu 28 % im Vergleich zu früheren Methoden reduziert und eine konsistente Leistung über Kamerakonfigurationen hinweg beibehält. Weitere Details finden Sie auf der Projektseite unter https://dfki-av.github.io/EgoForce.

English

Reconstructing the absolute 3D pose and shape of the hands from the user's viewpoint using a single head-mounted camera is crucial for practical egocentric interaction in AR/VR, telepresence, and hand-centric manipulation tasks, where sensing must remain compact and unobtrusive. While monocular RGB methods have made progress, they remain constrained by depth-scale ambiguity and struggle to generalize across the diverse optical configurations of head-mounted devices. As a result, models typically require extensive training on device-specific datasets, which are costly and laborious to acquire. This paper addresses these challenges by introducing EgoForce, a monocular 3D hand reconstruction framework that recovers robust, absolute 3D hand pose and its position from the user's (camera-space) viewpoint. EgoForce operates across fisheye, perspective, and distorted wide-FOV camera models using a single unified network. Our approach combines a differentiable forearm representation that stabilizes hand pose, a unified arm-hand transformer that predicts both hand and forearm geometry from a single egocentric view, mitigating depth-scale ambiguity, and a ray space closed-form solver that enables absolute 3D pose recovery across diverse head-mounted camera models. Experiments on three egocentric benchmarks show that EgoForce achieves state-of-the-art 3D accuracy, reducing camera-space MPJPE by up to 28% on the HOT3D dataset compared to prior methods and maintaining consistent performance across camera configurations. For more details, visit the project page at https://dfki-av.github.io/EgoForce.

EgoForce: Unterarm-geführte 3D-Handposenschätzung im Kameraraum aus einer monokularen egozentrischen Kamera

EgoForce: Forearm-Guided Camera-Space 3D Hand Pose from a Monocular Egocentric Camera

Zusammenfassung

Support