Opbergen, Stapelen, Ophangen: Relationele Pose-diffusie voor Multimodale Herrangschikking
Shelving, Stacking, Hanging: Relational Pose Diffusion for Multi-modal Rearrangement
July 10, 2023
Auteurs: Anthony Simeonov, Ankit Goyal, Lucas Manuelli, Lin Yen-Chen, Alina Sarmiento, Alberto Rodriguez, Pulkit Agrawal, Dieter Fox
cs.AI
Samenvatting
We stellen een systeem voor om objecten in een scène te herschikken om een gewenste object-scène plaatsingsrelatie te bereiken, zoals een boek dat in een open gleuf van een boekenkast wordt geplaatst. De pijplijn generaliseert naar nieuwe geometrieën, poses en lay-outs van zowel scènes als objecten, en wordt getraind op basis van demonstraties om direct op 3D-puntenwolken te werken. Ons systeem overwint uitdagingen die gepaard gaan met het bestaan van vele geometrisch vergelijkbare herschikkingsoplossingen voor een gegeven scène. Door gebruik te maken van een iteratieve pose-de-noising trainingsprocedure, kunnen we multi-modale demonstratiegegevens verwerken en multi-modale uitvoer produceren, terwijl we nauwkeurig en precies blijven. We tonen ook de voordelen van conditionering op relevante lokale geometrische kenmerken, terwijl irrelevante globale structuur die zowel generalisatie als precisie schaadt, wordt genegeerd. We demonstreren onze aanpak op drie verschillende herschikkingstaken die het omgaan met multi-modaliteit en generalisatie over objectvorm en pose vereisen, zowel in simulatie als in de echte wereld. Projectwebsite, code en video's: https://anthonysimeonov.github.io/rpdiff-multi-modal/
English
We propose a system for rearranging objects in a scene to achieve a desired
object-scene placing relationship, such as a book inserted in an open slot of a
bookshelf. The pipeline generalizes to novel geometries, poses, and layouts of
both scenes and objects, and is trained from demonstrations to operate directly
on 3D point clouds. Our system overcomes challenges associated with the
existence of many geometrically-similar rearrangement solutions for a given
scene. By leveraging an iterative pose de-noising training procedure, we can
fit multi-modal demonstration data and produce multi-modal outputs while
remaining precise and accurate. We also show the advantages of conditioning on
relevant local geometric features while ignoring irrelevant global structure
that harms both generalization and precision. We demonstrate our approach on
three distinct rearrangement tasks that require handling multi-modality and
generalization over object shape and pose in both simulation and the real
world. Project website, code, and videos:
https://anthonysimeonov.github.io/rpdiff-multi-modal/