Política de Difusão 3D
3D Diffusion Policy
March 6, 2024
Autores: Yanjie Ze, Gu Zhang, Kangning Zhang, Chenyuan Hu, Muhan Wang, Huazhe Xu
cs.AI
Resumo
O aprendizado por imitação oferece uma maneira eficiente de ensinar habilidades complexas a robôs; no entanto, aprender habilidades complexas de forma robusta e generalizável geralmente consome grandes quantidades de demonstrações humanas. Para enfrentar esse problema desafiador, apresentamos a Política de Difusão 3D (DP3), uma nova abordagem de aprendizado por imitação visual que incorpora o poder das representações visuais 3D em políticas de difusão, uma classe de modelos generativos de ações condicionais. O núcleo do design da DP3 é a utilização de uma representação visual 3D compacta, extraída de nuvens de pontos esparsas com um codificador de pontos eficiente. Em nossos experimentos envolvendo 72 tarefas de simulação, a DP3 lida com sucesso com a maioria das tarefas com apenas 10 demonstrações e supera as abordagens de referência com uma melhoria relativa de 55,3%. Em 4 tarefas de robôs reais, a DP3 demonstra controle preciso com uma alta taxa de sucesso de 85%, dado apenas 40 demonstrações de cada tarefa, e mostra excelentes habilidades de generalização em diversos aspectos, incluindo espaço, ponto de vista, aparência e instância. Curiosamente, nos experimentos com robôs reais, a DP3 raramente viola requisitos de segurança, em contraste com os métodos de referência que frequentemente o fazem, exigindo intervenção humana. Nossa avaliação extensa destaca a importância crítica das representações 3D no aprendizado de robôs no mundo real. Vídeos, código e dados estão disponíveis em https://3d-diffusion-policy.github.io.
English
Imitation learning provides an efficient way to teach robots dexterous
skills; however, learning complex skills robustly and generalizablely usually
consumes large amounts of human demonstrations. To tackle this challenging
problem, we present 3D Diffusion Policy (DP3), a novel visual imitation
learning approach that incorporates the power of 3D visual representations into
diffusion policies, a class of conditional action generative models. The core
design of DP3 is the utilization of a compact 3D visual representation,
extracted from sparse point clouds with an efficient point encoder. In our
experiments involving 72 simulation tasks, DP3 successfully handles most tasks
with just 10 demonstrations and surpasses baselines with a 55.3% relative
improvement. In 4 real robot tasks, DP3 demonstrates precise control with a
high success rate of 85%, given only 40 demonstrations of each task, and shows
excellent generalization abilities in diverse aspects, including space,
viewpoint, appearance, and instance. Interestingly, in real robot experiments,
DP3 rarely violates safety requirements, in contrast to baseline methods which
frequently do, necessitating human intervention. Our extensive evaluation
highlights the critical importance of 3D representations in real-world robot
learning. Videos, code, and data are available on
https://3d-diffusion-policy.github.io .