3D Diffusionsrichtlinie
3D Diffusion Policy
March 6, 2024
Autoren: Yanjie Ze, Gu Zhang, Kangning Zhang, Chenyuan Hu, Muhan Wang, Huazhe Xu
cs.AI
Zusammenfassung
Das Imitationslernen bietet eine effiziente Möglichkeit, Robotern geschickte Fähigkeiten beizubringen; jedoch erfordert das robuste und generalisierbare Erlernen komplexer Fähigkeiten in der Regel große Mengen an menschlichen Demonstrationen. Um dieses herausfordernde Problem anzugehen, präsentieren wir 3D Diffusion Policy (DP3), einen neuartigen visuellen Imitationslernansatz, der die Leistung von 3D-Visdarstellungen in Diffusionsrichtlinien, einer Klasse von bedingten Aktionsgenerierungsmodellen, integriert. Der Kernentwurf von DP3 besteht in der Verwendung einer kompakten 3D-Visdarstellung, die aus dünnen Punktwolken mit einem effizienten Punktencoder extrahiert wird. In unseren Experimenten mit 72 Simulationstasks bewältigt DP3 die meisten Aufgaben erfolgreich mit nur 10 Demonstrationen und übertrifft Baselines mit einer relativen Verbesserung von 55,3%. In 4 realen Roboter-Aufgaben zeigt DP3 eine präzise Steuerung mit einer hohen Erfolgsrate von 85%, basierend auf nur 40 Demonstrationen jeder Aufgabe, und zeigt ausgezeichnete Verallgemeinerungsfähigkeiten in verschiedenen Aspekten, einschließlich Raum, Blickwinkel, Erscheinungsbild und Instanz. Interessanterweise verletzt DP3 in realen Roboterexperimenten selten Sicherheitsanforderungen, im Gegensatz zu Basismethoden, die dies häufig tun und menschliches Eingreifen erfordern. Unsere umfangreiche Bewertung unterstreicht die entscheidende Bedeutung von 3D-Darstellungen beim Lernen von Robotern in der realen Welt. Videos, Code und Daten sind verfügbar unter https://3d-diffusion-policy.github.io.
English
Imitation learning provides an efficient way to teach robots dexterous
skills; however, learning complex skills robustly and generalizablely usually
consumes large amounts of human demonstrations. To tackle this challenging
problem, we present 3D Diffusion Policy (DP3), a novel visual imitation
learning approach that incorporates the power of 3D visual representations into
diffusion policies, a class of conditional action generative models. The core
design of DP3 is the utilization of a compact 3D visual representation,
extracted from sparse point clouds with an efficient point encoder. In our
experiments involving 72 simulation tasks, DP3 successfully handles most tasks
with just 10 demonstrations and surpasses baselines with a 55.3% relative
improvement. In 4 real robot tasks, DP3 demonstrates precise control with a
high success rate of 85%, given only 40 demonstrations of each task, and shows
excellent generalization abilities in diverse aspects, including space,
viewpoint, appearance, and instance. Interestingly, in real robot experiments,
DP3 rarely violates safety requirements, in contrast to baseline methods which
frequently do, necessitating human intervention. Our extensive evaluation
highlights the critical importance of 3D representations in real-world robot
learning. Videos, code, and data are available on
https://3d-diffusion-policy.github.io .