Préhension universelle humaine

Résumé

Les êtres humains peuvent saisir des objets sans effort, tandis que les robots multi-doigts sont loin d'atteindre ce niveau de généralité. Nous soutenons que la source la plus naturelle de données de préhension pour les robots provient des humains, qui ramassent des milliers d'objets chaque jour. Nous présentons HUG, un modèle d'appariement de flux qui génère des préhensions humaines diverses pour tout objet spécifié par l'utilisateur à partir d'une seule image RGB-D capturée par une caméra stéréo. À l'aide de lunettes intelligentes, nous collectons d'abord 1M-HUGs, un ensemble de données égocentrique de préhensions humaines couvrant 1 million d'images (27,8 heures) et 6 707 instances d'objets réparties dans 41 bâtiments. Ensuite, pour modéliser la distribution des préhensions humaines naturelles, notre nouveau modèle d'appariement de flux fusionne les observations RVB et de profondeur pour produire une préhension paramétrée par la translation du poignet, la rotation du poignet et la pose de la main MANO. Les préhensions prédites peuvent être réaffectées à différentes mains robotiques, permettant une préhension zero-shot dans des scènes quotidiennes. Pour standardiser l'évaluation, nous construisons un nouveau banc d'essai simulé, HUG-Bench, comprenant 90 objets non vus de cinq catégories géométriques et de tailles variées, avec des maillages 3D à l'échelle métrique. Nous évaluons HUG dans le monde réel sur l'ensemble de test de 30 objets de HUG-Bench avec plusieurs caméras stéréo, incarnations robotiques et environnements domestiques. HUG surpasse les références de préhension de pointe de +23 % et +34 % sur notre ensemble d'objets exigeant. Le code, les données, le banc d'essai, les points de contrôle et une démo interactive sont disponibles sur notre site Web : https://grasping.io/

English

Humans can grasp objects effortlessly, whereas multi-fingered robots are far from this level of generality. We argue that the most natural source of robot grasping data is from humans, who pick up thousands of objects every day. We present HUG, a flow-matching model that generates diverse human grasps for any user-specified object in a single RGB-D image captured from a stereo camera. Using smart glasses, we first collect 1M-HUGs, an egocentric dataset of human grasps spanning 1M frames (27.8 hrs) and 6,707 object instances across 41 buildings. Next, to model the distribution of natural human grasps, our novel flow-matching model fuses RGB and depth observations to output a grasp parameterized by wrist translation, wrist rotation, and MANO hand pose. Predicted grasps can be retargeted to various robot hands, enabling zero-shot grasping in everyday scenes. To standardize evaluation, we build a new simulated benchmark, HUG-Bench, of 90 unseen objects from five geometric categories and various sizes, with metric-scale 3D meshes. We evaluate HUG in the real world on the 30-object test set of HUG-Bench across multiple stereo cameras, robot embodiments, and household environments. HUG outperforms the state-of-the-art grasping baselines by +23% and +34% on our challenging object set. Code, data, benchmark, checkpoints, and an interactive demo are released on our website: https://grasping.io/