Apreensão Universal Humana

Resumo

Humanos conseguem agarrar objetos sem esforço, enquanto robôs multifuncionais estão longe desse nível de generalidade. Argumentamos que a fonte mais natural de dados para manipulação robótica são os próprios humanos, que pegam milhares de objetos diariamente. Apresentamos o HUG, um modelo de correspondência de fluxo (flow-matching) que gera diversas formas de agarrar humanas para qualquer objeto especificado pelo usuário em uma única imagem RGB-D capturada por uma câmera estéreo. Utilizando óculos inteligentes, primeiro coletamos o 1M-HUGs, um conjunto de dados egocêntrico de agarrões humanos abrangendo 1 milhão de quadros (27,8 horas) e 6.707 instâncias de objetos distribuídos por 41 edifícios. Em seguida, para modelar a distribuição de agarrões humanos naturais, nosso inovador modelo de correspondência de fluxo funde observações RGB e de profundidade para gerar um agarrão parametrizado pela translação do pulso, rotação do pulso e pose da mão MANO. Os agarrões previstos podem ser redirecionados para diferentes mãos robóticas, possibilitando a captura imediata (zero-shot) em cenas cotidianas. Para padronizar a avaliação, construímos um novo referencial simulado, o HUG-Bench, composto por 90 objetos não vistos pertencentes a cinco categorias geométricas e diversos tamanhos, com malhas 3D em escala métrica. Avaliamos o HUG no mundo real sobre o conjunto de teste de 30 objetos do HUG-Bench, utilizando múltiplas câmeras estéreo, arquiteturas robóticas e ambientes domésticos. O HUG supera as linhas de base mais avançadas do estado da arte em +23% e +34% em nosso desafiador conjunto de objetos. O código, os dados, o referencial, os pontos de verificação (checkpoints) e uma demonstração interativa estão disponíveis em nosso site: https://grasping.io/

English

Humans can grasp objects effortlessly, whereas multi-fingered robots are far from this level of generality. We argue that the most natural source of robot grasping data is from humans, who pick up thousands of objects every day. We present HUG, a flow-matching model that generates diverse human grasps for any user-specified object in a single RGB-D image captured from a stereo camera. Using smart glasses, we first collect 1M-HUGs, an egocentric dataset of human grasps spanning 1M frames (27.8 hrs) and 6,707 object instances across 41 buildings. Next, to model the distribution of natural human grasps, our novel flow-matching model fuses RGB and depth observations to output a grasp parameterized by wrist translation, wrist rotation, and MANO hand pose. Predicted grasps can be retargeted to various robot hands, enabling zero-shot grasping in everyday scenes. To standardize evaluation, we build a new simulated benchmark, HUG-Bench, of 90 unseen objects from five geometric categories and various sizes, with metric-scale 3D meshes. We evaluate HUG in the real world on the 30-object test set of HUG-Bench across multiple stereo cameras, robot embodiments, and household environments. HUG outperforms the state-of-the-art grasping baselines by +23% and +34% on our challenging object set. Code, data, benchmark, checkpoints, and an interactive demo are released on our website: https://grasping.io/