ChatPaper.aiChatPaper

Hin zu einem affordanzerkennenden, geschickten Greifen von Robotern mit menschähnlichen Prioritäten

Towards Affordance-Aware Robotic Dexterous Grasping with Human-like Priors

August 12, 2025
papers.authors: Haoyu Zhao, Linghao Zhuang, Xingyue Zhao, Cheng Zeng, Haoran Xu, Yuming Jiang, Jun Cen, Kexiang Wang, Jiayan Guo, Siteng Huang, Xin Li, Deli Zhao, Hua Zou
cs.AI

papers.abstract

Eine geschickte Hand, die in der Lage ist, Objekte generalisierbar zu greifen, ist grundlegend für die Entwicklung von allgemein einsetzbarer, verkörperter KI. Bisherige Methoden konzentrieren sich jedoch eng auf Metriken zur Greifstabilität auf niedriger Ebene und vernachlässigen affordanzbewusste Positionierung sowie menschenähnliche Posen, die für nachgelagerte Manipulationen entscheidend sind. Um diese Einschränkungen zu überwinden, schlagen wir AffordDex vor, ein neuartiges Framework mit zweistufigem Training, das eine universelle Greifpolitik erlernt, die ein inhärentes Verständnis sowohl von Bewegungspräferenzen als auch von Objektaffordanzen besitzt. In der ersten Stufe wird ein Trajektorienimitator auf einem umfangreichen Korpus menschlicher Handbewegungen vortrainiert, um eine starke Priorität für natürliche Bewegungen zu verankern. In der zweiten Stufe wird ein Residualmodul trainiert, um diese allgemeinen, menschenähnlichen Bewegungen an spezifische Objektinstanzen anzupassen. Diese Verfeinerung wird maßgeblich durch zwei Komponenten geleitet: unser Negativ-Affordanzbewusstes Segmentierungsmodul (NAA), das funktional ungeeignete Kontaktregionen identifiziert, und einen privilegierten Lehrer-Schüler-Distillationsprozess, der sicherstellt, dass die finale visuell basierte Politik äußerst erfolgreich ist. Umfangreiche Experimente zeigen, dass AffordDex nicht nur universelles, geschicktes Greifen erreicht, sondern auch in der Haltung bemerkenswert menschenähnlich und in der Kontaktposition funktional angemessen bleibt. Dadurch übertrifft AffordDex die aktuellsten Baselines deutlich bei bekannten Objekten, unbekannten Instanzen und sogar völlig neuen Kategorien.
English
A dexterous hand capable of generalizable grasping objects is fundamental for the development of general-purpose embodied AI. However, previous methods focus narrowly on low-level grasp stability metrics, neglecting affordance-aware positioning and human-like poses which are crucial for downstream manipulation. To address these limitations, we propose AffordDex, a novel framework with two-stage training that learns a universal grasping policy with an inherent understanding of both motion priors and object affordances. In the first stage, a trajectory imitator is pre-trained on a large corpus of human hand motions to instill a strong prior for natural movement. In the second stage, a residual module is trained to adapt these general human-like motions to specific object instances. This refinement is critically guided by two components: our Negative Affordance-aware Segmentation (NAA) module, which identifies functionally inappropriate contact regions, and a privileged teacher-student distillation process that ensures the final vision-based policy is highly successful. Extensive experiments demonstrate that AffordDex not only achieves universal dexterous grasping but also remains remarkably human-like in posture and functionally appropriate in contact location. As a result, AffordDex significantly outperforms state-of-the-art baselines across seen objects, unseen instances, and even entirely novel categories.
PDF102August 13, 2025