Ripiani, Impilamento, Appendere: Diffusione di Pose Relazionali per il Riordinamento Multimodale
Shelving, Stacking, Hanging: Relational Pose Diffusion for Multi-modal Rearrangement
July 10, 2023
Autori: Anthony Simeonov, Ankit Goyal, Lucas Manuelli, Lin Yen-Chen, Alina Sarmiento, Alberto Rodriguez, Pulkit Agrawal, Dieter Fox
cs.AI
Abstract
Proponiamo un sistema per riorganizzare oggetti in una scena al fine di ottenere una relazione desiderata tra oggetto e scena, come ad esempio un libro inserito in uno spazio aperto di una libreria. La pipeline si generalizza a geometrie, pose e layout nuovi sia per le scene che per gli oggetti, ed è addestrata su dimostrazioni per operare direttamente su nuvole di punti 3D. Il nostro sistema supera le sfide associate all'esistenza di molte soluzioni di riorganizzazione geometricamente simili per una data scena. Sfruttando una procedura di addestramento iterativa di de-rumore delle pose, siamo in grado di adattare dati dimostrativi multi-modali e produrre output multi-modali mantenendo precisione e accuratezza. Mostriamo inoltre i vantaggi di condizionare il sistema su caratteristiche geometriche locali rilevanti, ignorando la struttura globale irrilevante che danneggia sia la generalizzazione che la precisione. Dimostriamo il nostro approccio su tre distinti compiti di riorganizzazione che richiedono la gestione della multi-modalità e la generalizzazione rispetto alla forma e alla posa degli oggetti, sia in simulazione che nel mondo reale. Sito del progetto, codice e video: https://anthonysimeonov.github.io/rpdiff-multi-modal/
English
We propose a system for rearranging objects in a scene to achieve a desired
object-scene placing relationship, such as a book inserted in an open slot of a
bookshelf. The pipeline generalizes to novel geometries, poses, and layouts of
both scenes and objects, and is trained from demonstrations to operate directly
on 3D point clouds. Our system overcomes challenges associated with the
existence of many geometrically-similar rearrangement solutions for a given
scene. By leveraging an iterative pose de-noising training procedure, we can
fit multi-modal demonstration data and produce multi-modal outputs while
remaining precise and accurate. We also show the advantages of conditioning on
relevant local geometric features while ignoring irrelevant global structure
that harms both generalization and precision. We demonstrate our approach on
three distinct rearrangement tasks that require handling multi-modality and
generalization over object shape and pose in both simulation and the real
world. Project website, code, and videos:
https://anthonysimeonov.github.io/rpdiff-multi-modal/