Naar affordance-bewust robotisch behendig grijpen met mensachtige voorkennis
Towards Affordance-Aware Robotic Dexterous Grasping with Human-like Priors
August 12, 2025
Auteurs: Haoyu Zhao, Linghao Zhuang, Xingyue Zhao, Cheng Zeng, Haoran Xu, Yuming Jiang, Jun Cen, Kexiang Wang, Jiayan Guo, Siteng Huang, Xin Li, Deli Zhao, Hua Zou
cs.AI
Samenvatting
Een behendige hand die in staat is tot generaliseerbaar grijpen van objecten is fundamenteel voor de ontwikkeling van algemeen toepasbare embodied AI. Eerdere methoden richten zich echter nauw op metrische gegevens op laag niveau voor grijpstabiliteit, waarbij affordance-bewuste positionering en mensachtige houdingen, die cruciaal zijn voor downstream-manipulatie, worden verwaarloosd. Om deze beperkingen aan te pakken, stellen we AffordDex voor, een nieuw raamwerk met tweefasige training dat een universeel grijpbeleid leert met een inherent begrip van zowel bewegingspriors als objectaffordances. In de eerste fase wordt een trajectimitator voorgetraind op een grote corpus van menselijke handbewegingen om een sterke prior voor natuurlijke beweging in te prenten. In de tweede fase wordt een residumodule getraind om deze algemene mensachtige bewegingen aan te passen aan specifieke objectinstanties. Deze verfijning wordt kritisch begeleid door twee componenten: onze Negative Affordance-aware Segmentation (NAA)-module, die functioneel ongeschikte contactgebieden identificeert, en een geprivilegieerd teacher-student distillatieproces dat ervoor zorgt dat het uiteindelijke visiegebaseerde beleid zeer succesvol is. Uitgebreide experimenten tonen aan dat AffordDex niet alleen universeel behendig grijpen bereikt, maar ook opmerkelijk mensachtig blijft in houding en functioneel geschikt in contactlocatie. Als gevolg hiervan presteert AffordDex aanzienlijk beter dan state-of-the-art baselines voor bekende objecten, onbekende instanties en zelfs volledig nieuwe categorieën.
English
A dexterous hand capable of generalizable grasping objects is fundamental for
the development of general-purpose embodied AI. However, previous methods focus
narrowly on low-level grasp stability metrics, neglecting affordance-aware
positioning and human-like poses which are crucial for downstream manipulation.
To address these limitations, we propose AffordDex, a novel framework with
two-stage training that learns a universal grasping policy with an inherent
understanding of both motion priors and object affordances. In the first stage,
a trajectory imitator is pre-trained on a large corpus of human hand motions to
instill a strong prior for natural movement. In the second stage, a residual
module is trained to adapt these general human-like motions to specific object
instances. This refinement is critically guided by two components: our Negative
Affordance-aware Segmentation (NAA) module, which identifies functionally
inappropriate contact regions, and a privileged teacher-student distillation
process that ensures the final vision-based policy is highly successful.
Extensive experiments demonstrate that AffordDex not only achieves universal
dexterous grasping but also remains remarkably human-like in posture and
functionally appropriate in contact location. As a result, AffordDex
significantly outperforms state-of-the-art baselines across seen objects,
unseen instances, and even entirely novel categories.