ChatPaper.aiChatPaper

Rumo à Preensão Robótica Habilidosa Consciente de Afordâncias com Prioridades Semelhantes às Humanas

Towards Affordance-Aware Robotic Dexterous Grasping with Human-like Priors

August 12, 2025
Autores: Haoyu Zhao, Linghao Zhuang, Xingyue Zhao, Cheng Zeng, Haoran Xu, Yuming Jiang, Jun Cen, Kexiang Wang, Jiayan Guo, Siteng Huang, Xin Li, Deli Zhao, Hua Zou
cs.AI

Resumo

Uma mão hábil capaz de agarrar objetos de forma generalizável é fundamental para o desenvolvimento de IA corporificada de propósito geral. No entanto, métodos anteriores focam de forma restrita em métricas de estabilidade de preensão de baixo nível, negligenciando o posicionamento consciente de affordances e poses semelhantes às humanas, que são cruciais para a manipulação subsequente. Para abordar essas limitações, propomos o AffordDex, um novo framework com treinamento em duas etapas que aprende uma política universal de preensão com um entendimento inerente tanto de priors de movimento quanto de affordances de objetos. Na primeira etapa, um imitador de trajetória é pré-treinado em um grande corpus de movimentos da mão humana para incutir um forte prior para movimentos naturais. Na segunda etapa, um módulo residual é treinado para adaptar esses movimentos gerais semelhantes aos humanos a instâncias específicas de objetos. Esse refinamento é criticamente guiado por dois componentes: nosso módulo de Segmentação Consciente de Affordance Negativa (NAA), que identifica regiões de contato funcionalmente inadequadas, e um processo privilegiado de destilação professor-aluno que garante que a política final baseada em visão seja altamente bem-sucedida. Experimentos extensivos demonstram que o AffordDex não apenas alcança a preensão hábil universal, mas também permanece notavelmente semelhante ao humano em postura e funcionalmente apropriado na localização do contato. Como resultado, o AffordDex supera significativamente os baselines state-of-the-art em objetos vistos, instâncias não vistas e até mesmo categorias inteiramente novas.
English
A dexterous hand capable of generalizable grasping objects is fundamental for the development of general-purpose embodied AI. However, previous methods focus narrowly on low-level grasp stability metrics, neglecting affordance-aware positioning and human-like poses which are crucial for downstream manipulation. To address these limitations, we propose AffordDex, a novel framework with two-stage training that learns a universal grasping policy with an inherent understanding of both motion priors and object affordances. In the first stage, a trajectory imitator is pre-trained on a large corpus of human hand motions to instill a strong prior for natural movement. In the second stage, a residual module is trained to adapt these general human-like motions to specific object instances. This refinement is critically guided by two components: our Negative Affordance-aware Segmentation (NAA) module, which identifies functionally inappropriate contact regions, and a privileged teacher-student distillation process that ensures the final vision-based policy is highly successful. Extensive experiments demonstrate that AffordDex not only achieves universal dexterous grasping but also remains remarkably human-like in posture and functionally appropriate in contact location. As a result, AffordDex significantly outperforms state-of-the-art baselines across seen objects, unseen instances, and even entirely novel categories.
PDF102August 13, 2025