Универсальный человеческий захват

Аннотация

Человек способен без усилий захватывать объекты, тогда как многосуставные роботы далеки от такого уровня обобщения. Мы полагаем, что наиболее естественным источником данных для захвата объектов роботами являются люди, которые ежедневно поднимают тысячи предметов. Мы представляем HUG — модель согласования потоков, генерирующую разнообразные человеческие захваты для любого заданного пользователем объекта на основе одного RGB-D-изображения, полученного со стереокамеры. Используя умные очки, мы сначала собираем 1M-HUGs — эгоцентрический набор данных о человеческих захватах, охватывающий 1 млн кадров (27,8 часа) и 6 707 экземпляров объектов в 41 здании. Затем, для моделирования распределения естественных человеческих захватов, наша новая модель согласования потоков объединяет данные RGB и глубины для вывода захвата, параметризованного трансляцией запястья, вращением запястья и позой кисти по модели MANO. Предсказанные захваты могут быть перенастроены на различные кисти роботов, что позволяет осуществлять захват без обучения в повседневных сценах. Для стандартизации оценки мы создаем новый симуляционный бенчмарк HUG-Bench, состоящий из 90 ранее не встречавшихся объектов пяти геометрических категорий различных размеров с метрическими 3D-мешами. Мы оцениваем HUG в реальном мире на 30 объектах из тестового набора HUG-Bench, используя различные стереокамеры, воплощения роботов и бытовые среды. HUG превосходит современные базовые методы захвата на +23% и +34% на нашем сложном наборе объектов. Код, данные, бенчмарк, контрольные точки и интерактивное демо опубликованы на нашем веб-сайте: https://grasping.io/

English

Humans can grasp objects effortlessly, whereas multi-fingered robots are far from this level of generality. We argue that the most natural source of robot grasping data is from humans, who pick up thousands of objects every day. We present HUG, a flow-matching model that generates diverse human grasps for any user-specified object in a single RGB-D image captured from a stereo camera. Using smart glasses, we first collect 1M-HUGs, an egocentric dataset of human grasps spanning 1M frames (27.8 hrs) and 6,707 object instances across 41 buildings. Next, to model the distribution of natural human grasps, our novel flow-matching model fuses RGB and depth observations to output a grasp parameterized by wrist translation, wrist rotation, and MANO hand pose. Predicted grasps can be retargeted to various robot hands, enabling zero-shot grasping in everyday scenes. To standardize evaluation, we build a new simulated benchmark, HUG-Bench, of 90 unseen objects from five geometric categories and various sizes, with metric-scale 3D meshes. We evaluate HUG in the real world on the 30-object test set of HUG-Bench across multiple stereo cameras, robot embodiments, and household environments. HUG outperforms the state-of-the-art grasping baselines by +23% and +34% on our challenging object set. Code, data, benchmark, checkpoints, and an interactive demo are released on our website: https://grasping.io/