ChatPaper.aiChatPaper

Politique de Diffusion 3D

3D Diffusion Policy

March 6, 2024
Auteurs: Yanjie Ze, Gu Zhang, Kangning Zhang, Chenyuan Hu, Muhan Wang, Huazhe Xu
cs.AI

Résumé

L'apprentissage par imitation offre une méthode efficace pour enseigner aux robots des compétences complexes ; cependant, l'apprentissage robuste et généralisable de compétences sophistiquées nécessite généralement de grandes quantités de démonstrations humaines. Pour résoudre ce problème complexe, nous présentons 3D Diffusion Policy (DP3), une nouvelle approche d'apprentissage par imitation visuelle qui intègre la puissance des représentations visuelles 3D dans les politiques de diffusion, une classe de modèles génératifs d'actions conditionnelles. Le concept central de DP3 repose sur l'utilisation d'une représentation visuelle 3D compacte, extraite de nuages de points épars grâce à un encodeur de points efficace. Dans nos expériences portant sur 72 tâches de simulation, DP3 réussit à traiter la plupart des tâches avec seulement 10 démonstrations et surpasse les méthodes de référence avec une amélioration relative de 55,3 %. Dans 4 tâches impliquant des robots réels, DP3 démontre un contrôle précis avec un taux de réussite élevé de 85 %, en utilisant seulement 40 démonstrations pour chaque tâche, et montre d'excellentes capacités de généralisation dans divers aspects, notamment l'espace, le point de vue, l'apparence et l'instance. Fait intéressant, dans les expériences avec des robots réels, DP3 enfreint rarement les exigences de sécurité, contrairement aux méthodes de référence qui le font fréquemment, nécessitant une intervention humaine. Notre évaluation approfondie souligne l'importance cruciale des représentations 3D dans l'apprentissage robotique en conditions réelles. Les vidéos, le code et les données sont disponibles sur https://3d-diffusion-policy.github.io.
English
Imitation learning provides an efficient way to teach robots dexterous skills; however, learning complex skills robustly and generalizablely usually consumes large amounts of human demonstrations. To tackle this challenging problem, we present 3D Diffusion Policy (DP3), a novel visual imitation learning approach that incorporates the power of 3D visual representations into diffusion policies, a class of conditional action generative models. The core design of DP3 is the utilization of a compact 3D visual representation, extracted from sparse point clouds with an efficient point encoder. In our experiments involving 72 simulation tasks, DP3 successfully handles most tasks with just 10 demonstrations and surpasses baselines with a 55.3% relative improvement. In 4 real robot tasks, DP3 demonstrates precise control with a high success rate of 85%, given only 40 demonstrations of each task, and shows excellent generalization abilities in diverse aspects, including space, viewpoint, appearance, and instance. Interestingly, in real robot experiments, DP3 rarely violates safety requirements, in contrast to baseline methods which frequently do, necessitating human intervention. Our extensive evaluation highlights the critical importance of 3D representations in real-world robot learning. Videos, code, and data are available on https://3d-diffusion-policy.github.io .
PDF141December 15, 2024