Política de Difusión 3D
3D Diffusion Policy
March 6, 2024
Autores: Yanjie Ze, Gu Zhang, Kangning Zhang, Chenyuan Hu, Muhan Wang, Huazhe Xu
cs.AI
Resumen
El aprendizaje por imitación ofrece una forma eficiente de enseñar habilidades diestras a los robots; sin embargo, aprender habilidades complejas de manera robusta y generalizable suele consumir grandes cantidades de demostraciones humanas. Para abordar este problema desafiante, presentamos 3D Diffusion Policy (DP3), un novedoso enfoque de aprendizaje por imitación visual que incorpora el poder de las representaciones visuales 3D en políticas de difusión, una clase de modelos generativos de acciones condicionales. El diseño central de DP3 es la utilización de una representación visual 3D compacta, extraída de nubes de puntos dispersas mediante un codificador de puntos eficiente. En nuestros experimentos que involucran 72 tareas de simulación, DP3 maneja con éxito la mayoría de las tareas con solo 10 demostraciones y supera a los métodos de referencia con una mejora relativa del 55.3%. En 4 tareas con robots reales, DP3 demuestra un control preciso con una alta tasa de éxito del 85%, dado solo 40 demostraciones de cada tarea, y muestra excelentes capacidades de generalización en diversos aspectos, incluyendo espacio, punto de vista, apariencia e instancia. Curiosamente, en los experimentos con robots reales, DP3 rara vez viola los requisitos de seguridad, en contraste con los métodos de referencia que lo hacen con frecuencia, lo que requiere intervención humana. Nuestra evaluación extensa resalta la importancia crítica de las representaciones 3D en el aprendizaje de robots en el mundo real. Videos, código y datos están disponibles en https://3d-diffusion-policy.github.io.
English
Imitation learning provides an efficient way to teach robots dexterous
skills; however, learning complex skills robustly and generalizablely usually
consumes large amounts of human demonstrations. To tackle this challenging
problem, we present 3D Diffusion Policy (DP3), a novel visual imitation
learning approach that incorporates the power of 3D visual representations into
diffusion policies, a class of conditional action generative models. The core
design of DP3 is the utilization of a compact 3D visual representation,
extracted from sparse point clouds with an efficient point encoder. In our
experiments involving 72 simulation tasks, DP3 successfully handles most tasks
with just 10 demonstrations and surpasses baselines with a 55.3% relative
improvement. In 4 real robot tasks, DP3 demonstrates precise control with a
high success rate of 85%, given only 40 demonstrations of each task, and shows
excellent generalization abilities in diverse aspects, including space,
viewpoint, appearance, and instance. Interestingly, in real robot experiments,
DP3 rarely violates safety requirements, in contrast to baseline methods which
frequently do, necessitating human intervention. Our extensive evaluation
highlights the critical importance of 3D representations in real-world robot
learning. Videos, code, and data are available on
https://3d-diffusion-policy.github.io .