Vers une préhension robotique dextre consciente des affordances avec des a priori de type humain
Towards Affordance-Aware Robotic Dexterous Grasping with Human-like Priors
August 12, 2025
papers.authors: Haoyu Zhao, Linghao Zhuang, Xingyue Zhao, Cheng Zeng, Haoran Xu, Yuming Jiang, Jun Cen, Kexiang Wang, Jiayan Guo, Siteng Huang, Xin Li, Deli Zhao, Hua Zou
cs.AI
papers.abstract
Une main habile capable de saisir des objets de manière généralisable est fondamentale pour le développement d'une IA incarnée à usage général. Cependant, les méthodes précédentes se concentrent étroitement sur des métriques de stabilité de préhension de bas niveau, négligeant le positionnement conscient des affordances et les poses similaires à celles des humains, qui sont cruciales pour la manipulation ultérieure. Pour répondre à ces limitations, nous proposons AffordDex, un nouveau cadre avec un entraînement en deux étapes qui apprend une politique de préhension universelle avec une compréhension intrinsèque des priors de mouvement et des affordances des objets. Dans la première étape, un imitateur de trajectoire est pré-entraîné sur un large corpus de mouvements de main humains pour instiller un fort prior pour des mouvements naturels. Dans la deuxième étape, un module résiduel est entraîné pour adapter ces mouvements généraux similaires à ceux des humains à des instances spécifiques d'objets. Ce raffinement est guidé de manière critique par deux composants : notre module de segmentation conscient des affordances négatives (NAA), qui identifie les régions de contact fonctionnellement inappropriées, et un processus de distillation privilégié enseignant-élève qui garantit que la politique finale basée sur la vision est hautement réussie. Des expériences approfondies démontrent qu'AffordDex non seulement réalise une préhension habile universelle, mais reste également remarquablement similaire à celle des humains en posture et fonctionnellement appropriée dans l'emplacement du contact. En conséquence, AffordDex surpasse significativement les bases de référence de pointe à travers les objets vus, les instances non vues, et même des catégories entièrement nouvelles.
English
A dexterous hand capable of generalizable grasping objects is fundamental for
the development of general-purpose embodied AI. However, previous methods focus
narrowly on low-level grasp stability metrics, neglecting affordance-aware
positioning and human-like poses which are crucial for downstream manipulation.
To address these limitations, we propose AffordDex, a novel framework with
two-stage training that learns a universal grasping policy with an inherent
understanding of both motion priors and object affordances. In the first stage,
a trajectory imitator is pre-trained on a large corpus of human hand motions to
instill a strong prior for natural movement. In the second stage, a residual
module is trained to adapt these general human-like motions to specific object
instances. This refinement is critically guided by two components: our Negative
Affordance-aware Segmentation (NAA) module, which identifies functionally
inappropriate contact regions, and a privileged teacher-student distillation
process that ensures the final vision-based policy is highly successful.
Extensive experiments demonstrate that AffordDex not only achieves universal
dexterous grasping but also remains remarkably human-like in posture and
functionally appropriate in contact location. As a result, AffordDex
significantly outperforms state-of-the-art baselines across seen objects,
unseen instances, and even entirely novel categories.