Politica di Diffusione 3D

Abstract

L'apprendimento per imitazione offre un modo efficiente per insegnare ai robot abilità complesse; tuttavia, apprendere abilità complesse in modo robusto e generalizzabile richiede solitamente grandi quantità di dimostrazioni umane. Per affrontare questa problematica, presentiamo 3D Diffusion Policy (DP3), un nuovo approccio di apprendimento per imitazione visiva che incorpora la potenza delle rappresentazioni visive 3D nelle politiche di diffusione, una classe di modelli generativi di azioni condizionali. Il design centrale di DP3 è l'utilizzo di una rappresentazione visiva 3D compatta, estratta da nuvole di punti sparse con un codificatore di punti efficiente. Nei nostri esperimenti che coinvolgono 72 task di simulazione, DP3 gestisce con successo la maggior parte dei task con solo 10 dimostrazioni e supera i metodi di riferimento con un miglioramento relativo del 55,3%. In 4 task con robot reali, DP3 dimostra un controllo preciso con un tasso di successo elevato dell'85%, dato solo 40 dimostrazioni per ciascun task, e mostra eccellenti capacità di generalizzazione in diversi aspetti, tra cui spazio, punto di vista, aspetto e istanza. Interessantemente, negli esperimenti con robot reali, DP3 raramente viola i requisiti di sicurezza, a differenza dei metodi di riferimento che lo fanno frequentemente, rendendo necessario l'intervento umano. La nostra valutazione estesa evidenzia l'importanza cruciale delle rappresentazioni 3D nell'apprendimento robotico nel mondo reale. Video, codice e dati sono disponibili su https://3d-diffusion-policy.github.io.

English

Imitation learning provides an efficient way to teach robots dexterous skills; however, learning complex skills robustly and generalizablely usually consumes large amounts of human demonstrations. To tackle this challenging problem, we present 3D Diffusion Policy (DP3), a novel visual imitation learning approach that incorporates the power of 3D visual representations into diffusion policies, a class of conditional action generative models. The core design of DP3 is the utilization of a compact 3D visual representation, extracted from sparse point clouds with an efficient point encoder. In our experiments involving 72 simulation tasks, DP3 successfully handles most tasks with just 10 demonstrations and surpasses baselines with a 55.3% relative improvement. In 4 real robot tasks, DP3 demonstrates precise control with a high success rate of 85%, given only 40 demonstrations of each task, and shows excellent generalization abilities in diverse aspects, including space, viewpoint, appearance, and instance. Interestingly, in real robot experiments, DP3 rarely violates safety requirements, in contrast to baseline methods which frequently do, necessitating human intervention. Our extensive evaluation highlights the critical importance of 3D representations in real-world robot learning. Videos, code, and data are available on https://3d-diffusion-policy.github.io .