Menselijk universeel grijpen

Samenvatting

Mensen kunnen moeiteloos objecten vastpakken, terwijl multifingered robots ver verwijderd zijn van dit niveau van algemeenheid. Wij stellen dat de meest natuurlijke bron van robotgrijpgegevens afkomstig is van mensen, die dagelijks duizenden objecten oppakken. We presenteren HUG, een flow-matchingmodel dat diverse menselijke grijpbewegingen genereert voor elk door de gebruiker gespecificeerd object in een enkele RGB-D-afbeelding vastgelegd met een stereocamera. Met behulp van slimme brillen verzamelen we eerst 1M-HUGs, een egocentrische dataset van menselijke grijpbewegingen die 1M frames (27,8 uur) en 6.707 objectexemplaren verspreid over 41 gebouwen omvat. Vervolgens modelleren we de verdeling van natuurlijke menselijke grijpbewegingen met behulp van ons nieuwe flow-matchingmodel, dat RGB- en dieptewaarnemingen samenvoegt om een grijpbeweging te genereren die wordt geparametriseerd door polstranslatie, polsrotatie en MANO-handhouding. Voorspelde grijpbewegingen kunnen worden hergericht naar verschillende robothanden, waardoor zero-shot grijpen in alledaagse omgevingen mogelijk wordt. Om de evaluatie te standaardiseren, bouwen we een nieuwe gesimuleerde benchmark, HUG-Bench, met 90 onzichtbare objecten uit vijf geometrische categorieën en verschillende afmetingen, voorzien van metrische 3D-meshes. We evalueren HUG in de echte wereld op de 30-objectentestset van HUG-Bench met meerdere stereocamera's, robotuitvoeringen en huishoudelijke omgevingen. HUG presteert beter dan de state-of-the-art grijpbaselines met respectievelijk +23% en +34% op onze uitdagende objectenset. Code, data, benchmark, checkpoints en een interactieve demo zijn beschikbaar op onze website: https://grasping.io/

English

Humans can grasp objects effortlessly, whereas multi-fingered robots are far from this level of generality. We argue that the most natural source of robot grasping data is from humans, who pick up thousands of objects every day. We present HUG, a flow-matching model that generates diverse human grasps for any user-specified object in a single RGB-D image captured from a stereo camera. Using smart glasses, we first collect 1M-HUGs, an egocentric dataset of human grasps spanning 1M frames (27.8 hrs) and 6,707 object instances across 41 buildings. Next, to model the distribution of natural human grasps, our novel flow-matching model fuses RGB and depth observations to output a grasp parameterized by wrist translation, wrist rotation, and MANO hand pose. Predicted grasps can be retargeted to various robot hands, enabling zero-shot grasping in everyday scenes. To standardize evaluation, we build a new simulated benchmark, HUG-Bench, of 90 unseen objects from five geometric categories and various sizes, with metric-scale 3D meshes. We evaluate HUG in the real world on the 30-object test set of HUG-Bench across multiple stereo cameras, robot embodiments, and household environments. HUG outperforms the state-of-the-art grasping baselines by +23% and +34% on our challenging object set. Code, data, benchmark, checkpoints, and an interactive demo are released on our website: https://grasping.io/