Prensión Humana Universal

Resumen

Los humanos pueden agarrar objetos sin esfuerzo, mientras que los robots multifuncionales están lejos de alcanzar este nivel de generalidad. Argumentamos que la fuente más natural de datos de agarre para robots proviene de los humanos, quienes recogen miles de objetos cada día. Presentamos HUG, un modelo de coincidencia de flujo que genera agarres humanos diversos para cualquier objeto especificado por el usuario en una sola imagen RGB-D capturada con una cámara estéreo. Usando gafas inteligentes, primero recopilamos 1M-HUGs, un conjunto de datos egocéntrico de agarres humanos que abarca 1 millón de fotogramas (27,8 horas) y 6.707 instancias de objetos en 41 edificios. A continuación, para modelar la distribución de agarres humanos naturales, nuestro novedoso modelo de coincidencia de flujo fusiona observaciones RGB y de profundidad para generar un agarre parametrizado por la traslación de la muñeca, la rotación de la muñeca y la pose de la mano MANO. Los agarres predichos pueden reorientarse a diversas manos robóticas, lo que permite el agarre sin entrenamiento previo en escenas cotidianas. Para estandarizar la evaluación, construimos un nuevo benchmark simulado, HUG-Bench, con 90 objetos no vistos de cinco categorías geométricas y diversos tamaños, con mallas 3D a escala métrica. Evaluamos HUG en el mundo real sobre el conjunto de prueba de 30 objetos de HUG-Bench en múltiples cámaras estéreo, configuraciones robóticas y entornos domésticos. HUG supera a las líneas base de agarre del estado del arte en un +23% y +34% en nuestro desafiante conjunto de objetos. El código, los datos, el benchmark, los puntos de control y una demostración interactiva se publican en nuestro sitio web: https://grasping.io/

English

Humans can grasp objects effortlessly, whereas multi-fingered robots are far from this level of generality. We argue that the most natural source of robot grasping data is from humans, who pick up thousands of objects every day. We present HUG, a flow-matching model that generates diverse human grasps for any user-specified object in a single RGB-D image captured from a stereo camera. Using smart glasses, we first collect 1M-HUGs, an egocentric dataset of human grasps spanning 1M frames (27.8 hrs) and 6,707 object instances across 41 buildings. Next, to model the distribution of natural human grasps, our novel flow-matching model fuses RGB and depth observations to output a grasp parameterized by wrist translation, wrist rotation, and MANO hand pose. Predicted grasps can be retargeted to various robot hands, enabling zero-shot grasping in everyday scenes. To standardize evaluation, we build a new simulated benchmark, HUG-Bench, of 90 unseen objects from five geometric categories and various sizes, with metric-scale 3D meshes. We evaluate HUG in the real world on the 30-object test set of HUG-Bench across multiple stereo cameras, robot embodiments, and household environments. HUG outperforms the state-of-the-art grasping baselines by +23% and +34% on our challenging object set. Code, data, benchmark, checkpoints, and an interactive demo are released on our website: https://grasping.io/