ChatPaper.aiChatPaper

Ripiani, Impilamento, Appendere: Diffusione di Pose Relazionali per il Riordinamento Multimodale

Shelving, Stacking, Hanging: Relational Pose Diffusion for Multi-modal Rearrangement

July 10, 2023
Autori: Anthony Simeonov, Ankit Goyal, Lucas Manuelli, Lin Yen-Chen, Alina Sarmiento, Alberto Rodriguez, Pulkit Agrawal, Dieter Fox
cs.AI

Abstract

Proponiamo un sistema per riorganizzare oggetti in una scena al fine di ottenere una relazione desiderata tra oggetto e scena, come ad esempio un libro inserito in uno spazio aperto di una libreria. La pipeline si generalizza a geometrie, pose e layout nuovi sia per le scene che per gli oggetti, ed è addestrata su dimostrazioni per operare direttamente su nuvole di punti 3D. Il nostro sistema supera le sfide associate all'esistenza di molte soluzioni di riorganizzazione geometricamente simili per una data scena. Sfruttando una procedura di addestramento iterativa di de-rumore delle pose, siamo in grado di adattare dati dimostrativi multi-modali e produrre output multi-modali mantenendo precisione e accuratezza. Mostriamo inoltre i vantaggi di condizionare il sistema su caratteristiche geometriche locali rilevanti, ignorando la struttura globale irrilevante che danneggia sia la generalizzazione che la precisione. Dimostriamo il nostro approccio su tre distinti compiti di riorganizzazione che richiedono la gestione della multi-modalità e la generalizzazione rispetto alla forma e alla posa degli oggetti, sia in simulazione che nel mondo reale. Sito del progetto, codice e video: https://anthonysimeonov.github.io/rpdiff-multi-modal/
English
We propose a system for rearranging objects in a scene to achieve a desired object-scene placing relationship, such as a book inserted in an open slot of a bookshelf. The pipeline generalizes to novel geometries, poses, and layouts of both scenes and objects, and is trained from demonstrations to operate directly on 3D point clouds. Our system overcomes challenges associated with the existence of many geometrically-similar rearrangement solutions for a given scene. By leveraging an iterative pose de-noising training procedure, we can fit multi-modal demonstration data and produce multi-modal outputs while remaining precise and accurate. We also show the advantages of conditioning on relevant local geometric features while ignoring irrelevant global structure that harms both generalization and precision. We demonstrate our approach on three distinct rearrangement tasks that require handling multi-modality and generalization over object shape and pose in both simulation and the real world. Project website, code, and videos: https://anthonysimeonov.github.io/rpdiff-multi-modal/
PDF40December 15, 2024