Étagère, Empilage, Suspension : Diffusion de pose relationnelle pour le réarrangement multimodal
Shelving, Stacking, Hanging: Relational Pose Diffusion for Multi-modal Rearrangement
July 10, 2023
Auteurs: Anthony Simeonov, Ankit Goyal, Lucas Manuelli, Lin Yen-Chen, Alina Sarmiento, Alberto Rodriguez, Pulkit Agrawal, Dieter Fox
cs.AI
Résumé
Nous proposons un système pour réorganiser des objets dans une scène afin d’obtenir une relation de placement objet-scène souhaitée, telle qu’un livre inséré dans une fente ouverte d’une étagère. La chaîne de traitement se généralise à des géométries, poses et agencements nouveaux, tant pour les scènes que pour les objets, et est entraînée à partir de démonstrations pour opérer directement sur des nuages de points 3D. Notre système surmonte les défis liés à l’existence de nombreuses solutions de réorganisation géométriquement similaires pour une scène donnée. En exploitant une procédure d’entraînement itérative de débruitage de pose, nous pouvons ajuster des données de démonstration multimodales et produire des sorties multimodales tout en restant précis et exact. Nous montrons également les avantages de conditionner sur des caractéristiques géométriques locales pertinentes tout en ignorant la structure globale non pertinente qui nuit à la généralisation et à la précision. Nous démontrons notre approche sur trois tâches distinctes de réorganisation qui nécessitent la gestion de la multimodalité et la généralisation sur la forme et la pose des objets, à la fois en simulation et dans le monde réel. Site web du projet, code et vidéos : https://anthonysimeonov.github.io/rpdiff-multi-modal/
English
We propose a system for rearranging objects in a scene to achieve a desired
object-scene placing relationship, such as a book inserted in an open slot of a
bookshelf. The pipeline generalizes to novel geometries, poses, and layouts of
both scenes and objects, and is trained from demonstrations to operate directly
on 3D point clouds. Our system overcomes challenges associated with the
existence of many geometrically-similar rearrangement solutions for a given
scene. By leveraging an iterative pose de-noising training procedure, we can
fit multi-modal demonstration data and produce multi-modal outputs while
remaining precise and accurate. We also show the advantages of conditioning on
relevant local geometric features while ignoring irrelevant global structure
that harms both generalization and precision. We demonstrate our approach on
three distinct rearrangement tasks that require handling multi-modality and
generalization over object shape and pose in both simulation and the real
world. Project website, code, and videos:
https://anthonysimeonov.github.io/rpdiff-multi-modal/