Verso una Presa Robotica Abile e Consapevole delle Affordanze con Priorità di Tipo Umano
Towards Affordance-Aware Robotic Dexterous Grasping with Human-like Priors
August 12, 2025
Autori: Haoyu Zhao, Linghao Zhuang, Xingyue Zhao, Cheng Zeng, Haoran Xu, Yuming Jiang, Jun Cen, Kexiang Wang, Jiayan Guo, Siteng Huang, Xin Li, Deli Zhao, Hua Zou
cs.AI
Abstract
Una mano abile in grado di afferrare oggetti in modo generalizzabile è fondamentale per lo sviluppo di intelligenze artificiali incarnate a scopo generale. Tuttavia, i metodi precedenti si concentrano in modo ristretto su metriche di stabilità dell'impugnazione a basso livello, trascurando il posizionamento consapevole delle affordance e le pose simili a quelle umane, che sono cruciali per la manipolazione successiva. Per affrontare queste limitazioni, proponiamo AffordDex, un nuovo framework con un addestramento in due fasi che apprende una politica universale di presa con una comprensione intrinseca sia dei priori di movimento che delle affordance degli oggetti. Nella prima fase, un imitatore di traiettorie viene pre-addestrato su un ampio corpus di movimenti della mano umana per instillare un forte priore per movimenti naturali. Nella seconda fase, un modulo residuo viene addestrato per adattare questi movimenti generali simili a quelli umani a specifiche istanze di oggetti. Questo affinamento è guidato in modo critico da due componenti: il nostro modulo di Segmentazione Consapevole delle Affordance Negative (NAA), che identifica le regioni di contatto funzionalmente inappropriate, e un processo di distillazione privilegiato insegnante-studente che garantisce che la politica finale basata sulla visione sia altamente efficace. Esperimenti estensivi dimostrano che AffordDex non solo raggiunge una presa abile universale, ma rimane anche notevolmente simile a quella umana nella postura e funzionalmente appropriata nella posizione del contatto. Di conseguenza, AffordDex supera significativamente i benchmark state-of-the-art su oggetti visti, istanze non viste e persino categorie completamente nuove.
English
A dexterous hand capable of generalizable grasping objects is fundamental for
the development of general-purpose embodied AI. However, previous methods focus
narrowly on low-level grasp stability metrics, neglecting affordance-aware
positioning and human-like poses which are crucial for downstream manipulation.
To address these limitations, we propose AffordDex, a novel framework with
two-stage training that learns a universal grasping policy with an inherent
understanding of both motion priors and object affordances. In the first stage,
a trajectory imitator is pre-trained on a large corpus of human hand motions to
instill a strong prior for natural movement. In the second stage, a residual
module is trained to adapt these general human-like motions to specific object
instances. This refinement is critically guided by two components: our Negative
Affordance-aware Segmentation (NAA) module, which identifies functionally
inappropriate contact regions, and a privileged teacher-student distillation
process that ensures the final vision-based policy is highly successful.
Extensive experiments demonstrate that AffordDex not only achieves universal
dexterous grasping but also remains remarkably human-like in posture and
functionally appropriate in contact location. As a result, AffordDex
significantly outperforms state-of-the-art baselines across seen objects,
unseen instances, and even entirely novel categories.