Universelles menschliches Greifen

Zusammenfassung

Menschen können Gegenstände mühelos greifen, während mehrfingrige Roboter weit von diesem Allgemeinheitsgrad entfernt sind. Wir argumentieren, dass die natürlichste Quelle für Robotergreifdaten der Mensch ist, der täglich tausende von Objekten aufnimmt. Wir stellen HUG vor, ein Flow-Matching-Modell, das verschiedene menschliche Griffe für jedes benutzerdefinierte Objekt in einem einzelnen RGB-D-Bild erzeugt, das von einer Stereokamera aufgenommen wurde. Mithilfe einer Smart-Brille erfassen wir zunächst 1M-HUGs, einen egozentrischen Datensatz menschlicher Griffe, der 1 Million Bildsequenzen (27,8 Stunden) und 6.707 Objektinstanzen in 41 Gebäuden umfasst. Um die Verteilung natürlicher menschlicher Griffe zu modellieren, fusioniert unser neuartiges Flow-Matching-Modell RGB- und Tiefenbeobachtungen und gibt einen Greifer aus, der durch Handgelenkstranslation, Handgelenksrotation und MANO-Handpose parametrisiert ist. Die vorhergesagten Griffe können auf verschiedene Roboterhände umtargetiert werden, was Null-Shot-Greifen in alltäglichen Szenen ermöglicht. Zur Standardisierung der Evaluierung erstellen wir einen neuen simulierten Benchmark, HUG-Bench, mit 90 ungesehenen Objekten aus fünf geometrischen Kategorien und verschiedenen Größen, einschließlich maßstabsgetreuer 3D-Meshes. Wir evaluieren HUG in der realen Welt anhand des 30-Objekt-Testsets von HUG-Bench über mehrere Stereokameras, Roboterausführungen und Haushaltsumgebungen hinweg. HUG übertrifft die modernsten Greifbasislinien um +23 % und +34 % in unserem anspruchsvollen Objektset. Code, Daten, Benchmark, Checkpoints und eine interaktive Demo sind auf unserer Website veröffentlicht: https://grasping.io/

English

Humans can grasp objects effortlessly, whereas multi-fingered robots are far from this level of generality. We argue that the most natural source of robot grasping data is from humans, who pick up thousands of objects every day. We present HUG, a flow-matching model that generates diverse human grasps for any user-specified object in a single RGB-D image captured from a stereo camera. Using smart glasses, we first collect 1M-HUGs, an egocentric dataset of human grasps spanning 1M frames (27.8 hrs) and 6,707 object instances across 41 buildings. Next, to model the distribution of natural human grasps, our novel flow-matching model fuses RGB and depth observations to output a grasp parameterized by wrist translation, wrist rotation, and MANO hand pose. Predicted grasps can be retargeted to various robot hands, enabling zero-shot grasping in everyday scenes. To standardize evaluation, we build a new simulated benchmark, HUG-Bench, of 90 unseen objects from five geometric categories and various sizes, with metric-scale 3D meshes. We evaluate HUG in the real world on the 30-object test set of HUG-Bench across multiple stereo cameras, robot embodiments, and household environments. HUG outperforms the state-of-the-art grasping baselines by +23% and +34% on our challenging object set. Code, data, benchmark, checkpoints, and an interactive demo are released on our website: https://grasping.io/