UltraDexGrasp: Aprendizado de Preensão Dáxtil Universal para Robôs Bimanuais com Dados Sintéticos

Resumo

A preensão é uma capacidade fundamental para que os robôs interajjam com o mundo físico. Os seres humanos, equipados com duas mãos, selecionam autonomamente estratégias de preensão apropriadas com base na forma, tamanho e peso dos objetos, permitindo uma preensão robusta e subsequente manipulação. Em contraste, a preensão robótica atual permanece limitada, particularmente em ambientes multiestratégia. Embora esforços substanciais tenham sido direcionados para a preensão com pinças paralelas e com uma única mão, a preensão hábil para robôs bimanuais permanece pouco explorada, sendo os dados um dos principais gargalos. Alcançar preensões fisicamente plausíveis e geometricamente conformes que possam suportar torques externos apresenta desafios significativos. Para abordar essas questões, apresentamos o UltraDexGrasp, uma estrutura para preensão hábil universal com robôs bimanuais. O pipeline de geração de dados proposto integra a síntese de preensão baseada em otimização com a geração de demonstrações baseada em planeamento, produzindo trajetórias de alta qualidade e diversificadas em múltiplas estratégias de preensão. Com esta estrutura, reunimos o UltraDexGrasp-20M, um conjunto de dados de preensão multiestratégia em larga escala, composto por 20 milhões de quadros em 1.000 objetos. Com base no UltraDexGrasp-20M, desenvolvemos ainda uma política de preensão simples mas eficaz que recebe nuvens de pontos como entrada, agrega características da cena através de atenção unidirecional e prevê comandos de controlo. Treinada exclusivamente com dados sintéticos, a política alcança uma transferência robusta sim-para-real de *zero-shot* e tem sucesso consistentemente em objetos novos com várias formas, tamanhos e pesos, atingindo uma taxa de sucesso média de 81,2% na preensão hábil universal do mundo real. Para facilitar futuras investigações sobre preensão com robôs bimanuais, disponibilizamos como código aberto o pipeline de geração de dados em https://github.com/InternRobotics/UltraDexGrasp.

English

Grasping is a fundamental capability for robots to interact with the physical world. Humans, equipped with two hands, autonomously select appropriate grasp strategies based on the shape, size, and weight of objects, enabling robust grasping and subsequent manipulation. In contrast, current robotic grasping remains limited, particularly in multi-strategy settings. Although substantial efforts have targeted parallel-gripper and single-hand grasping, dexterous grasping for bimanual robots remains underexplored, with data being a primary bottleneck. Achieving physically plausible and geometrically conforming grasps that can withstand external wrenches poses significant challenges. To address these issues, we introduce UltraDexGrasp, a framework for universal dexterous grasping with bimanual robots. The proposed data-generation pipeline integrates optimization-based grasp synthesis with planning-based demonstration generation, yielding high-quality and diverse trajectories across multiple grasp strategies. With this framework, we curate UltraDexGrasp-20M, a large-scale, multi-strategy grasp dataset comprising 20 million frames across 1,000 objects. Based on UltraDexGrasp-20M, we further develop a simple yet effective grasp policy that takes point clouds as input, aggregates scene features via unidirectional attention, and predicts control commands. Trained exclusively on synthetic data, the policy achieves robust zero-shot sim-to-real transfer and consistently succeeds on novel objects with varied shapes, sizes, and weights, attaining an average success rate of 81.2% in real-world universal dexterous grasping. To facilitate future research on grasping with bimanual robots, we open-source the data generation pipeline at https://github.com/InternRobotics/UltraDexGrasp.