인간과 유사한 사전 지식을 활용한 어포던스 인식 로봇 정밀 그리핑을 향하여
Towards Affordance-Aware Robotic Dexterous Grasping with Human-like Priors
August 12, 2025
저자: Haoyu Zhao, Linghao Zhuang, Xingyue Zhao, Cheng Zeng, Haoran Xu, Yuming Jiang, Jun Cen, Kexiang Wang, Jiayan Guo, Siteng Huang, Xin Li, Deli Zhao, Hua Zou
cs.AI
초록
범용적인 물체 파지가 가능한 민첩한 손은 범용 목적의 구체화된 AI 개발에 있어 근본적인 요소입니다. 그러나 기존 방법들은 저수준의 파지 안정성 지표에만 초점을 맞추어, 후속 조작에 중요한 역할을 하는 어포던스 인식 위치 지정 및 인간과 유사한 자세를 간과해 왔습니다. 이러한 한계를 해결하기 위해, 우리는 모션 사전 지식과 객체 어포던스를 내재적으로 이해하는 보편적 파지 정책을 학습하는 두 단계 훈련을 포함한 새로운 프레임워크인 AffordDex를 제안합니다. 첫 번째 단계에서는 인간 손 동작의 대규모 데이터셋을 기반으로 궤적 모방기를 사전 훈련시켜 자연스러운 움직임에 대한 강력한 사전 지식을 심어줍니다. 두 번째 단계에서는 잔차 모듈을 훈련시켜 이러한 일반적인 인간과 유사한 동작을 특정 객체 인스턴스에 맞게 조정합니다. 이 정제 과정은 기능적으로 부적절한 접촉 영역을 식별하는 Negative Affordance-aware Segmentation (NAA) 모듈과, 최종 시각 기반 정책이 높은 성공률을 보장하도록 하는 특권 교사-학생 증류 과정이라는 두 가지 구성 요소에 의해 중요한 지도를 받습니다. 광범위한 실험을 통해 AffordDex가 보편적인 민첩한 파지를 달성할 뿐만 아니라 자세에서도 현저히 인간과 유사하고 접촉 위치에서도 기능적으로 적절함을 입증했습니다. 결과적으로 AffordDex는 기존 객체, 보이지 않는 인스턴스, 심지어 완전히 새로운 카테고리에서도 최첨단 기준선을 크게 능가하는 성능을 보여줍니다.
English
A dexterous hand capable of generalizable grasping objects is fundamental for
the development of general-purpose embodied AI. However, previous methods focus
narrowly on low-level grasp stability metrics, neglecting affordance-aware
positioning and human-like poses which are crucial for downstream manipulation.
To address these limitations, we propose AffordDex, a novel framework with
two-stage training that learns a universal grasping policy with an inherent
understanding of both motion priors and object affordances. In the first stage,
a trajectory imitator is pre-trained on a large corpus of human hand motions to
instill a strong prior for natural movement. In the second stage, a residual
module is trained to adapt these general human-like motions to specific object
instances. This refinement is critically guided by two components: our Negative
Affordance-aware Segmentation (NAA) module, which identifies functionally
inappropriate contact regions, and a privileged teacher-student distillation
process that ensures the final vision-based policy is highly successful.
Extensive experiments demonstrate that AffordDex not only achieves universal
dexterous grasping but also remains remarkably human-like in posture and
functionally appropriate in contact location. As a result, AffordDex
significantly outperforms state-of-the-art baselines across seen objects,
unseen instances, and even entirely novel categories.