К роботизированному ловкому захвату с учетом аффордансов и человеко-подобных приоритетов
Towards Affordance-Aware Robotic Dexterous Grasping with Human-like Priors
August 12, 2025
Авторы: Haoyu Zhao, Linghao Zhuang, Xingyue Zhao, Cheng Zeng, Haoran Xu, Yuming Jiang, Jun Cen, Kexiang Wang, Jiayan Guo, Siteng Huang, Xin Li, Deli Zhao, Hua Zou
cs.AI
Аннотация
Ловкая рука, способная к универсальному захвату объектов, является фундаментальной для развития универсального воплощённого ИИ. Однако предыдущие методы сосредоточены исключительно на низкоуровневых метриках устойчивости захвата, игнорируя позиционирование с учётом аффордансов и человекообразные позы, которые имеют решающее значение для последующих манипуляций. Чтобы устранить эти ограничения, мы предлагаем AffordDex — новую структуру с двухэтапным обучением, которая изучает универсальную политику захвата с внутренним пониманием как априорных данных о движении, так и аффордансов объектов. На первом этапе имитатор траекторий предварительно обучается на большом корпусе движений человеческой руки, чтобы заложить сильный априор для естественных движений. На втором этапе остаточный модуль обучается адаптировать эти общие человекообразные движения к конкретным экземплярам объектов. Это уточнение критически направляется двумя компонентами: нашим модулем сегментации с учётом отрицательных аффордансов (NAA), который идентифицирует функционально неподходящие области контакта, и процессом дистилляции с привилегированным учителем, который обеспечивает высокую успешность окончательной политики, основанной на зрении. Многочисленные эксперименты демонстрируют, что AffordDex не только достигает универсального ловкого захвата, но и остаётся поразительно человекообразным в позах и функционально подходящим в выборе точек контакта. В результате AffordDex значительно превосходит современные базовые подходы как для известных объектов, так и для неизвестных экземпляров и даже совершенно новых категорий.
English
A dexterous hand capable of generalizable grasping objects is fundamental for
the development of general-purpose embodied AI. However, previous methods focus
narrowly on low-level grasp stability metrics, neglecting affordance-aware
positioning and human-like poses which are crucial for downstream manipulation.
To address these limitations, we propose AffordDex, a novel framework with
two-stage training that learns a universal grasping policy with an inherent
understanding of both motion priors and object affordances. In the first stage,
a trajectory imitator is pre-trained on a large corpus of human hand motions to
instill a strong prior for natural movement. In the second stage, a residual
module is trained to adapt these general human-like motions to specific object
instances. This refinement is critically guided by two components: our Negative
Affordance-aware Segmentation (NAA) module, which identifies functionally
inappropriate contact regions, and a privileged teacher-student distillation
process that ensures the final vision-based policy is highly successful.
Extensive experiments demonstrate that AffordDex not only achieves universal
dexterous grasping but also remains remarkably human-like in posture and
functionally appropriate in contact location. As a result, AffordDex
significantly outperforms state-of-the-art baselines across seen objects,
unseen instances, and even entirely novel categories.