ChatPaper.aiChatPaper

Opbergen, Stapelen, Ophangen: Relationele Pose-diffusie voor Multimodale Herrangschikking

Shelving, Stacking, Hanging: Relational Pose Diffusion for Multi-modal Rearrangement

July 10, 2023
Auteurs: Anthony Simeonov, Ankit Goyal, Lucas Manuelli, Lin Yen-Chen, Alina Sarmiento, Alberto Rodriguez, Pulkit Agrawal, Dieter Fox
cs.AI

Samenvatting

We stellen een systeem voor om objecten in een scène te herschikken om een gewenste object-scène plaatsingsrelatie te bereiken, zoals een boek dat in een open gleuf van een boekenkast wordt geplaatst. De pijplijn generaliseert naar nieuwe geometrieën, poses en lay-outs van zowel scènes als objecten, en wordt getraind op basis van demonstraties om direct op 3D-puntenwolken te werken. Ons systeem overwint uitdagingen die gepaard gaan met het bestaan van vele geometrisch vergelijkbare herschikkingsoplossingen voor een gegeven scène. Door gebruik te maken van een iteratieve pose-de-noising trainingsprocedure, kunnen we multi-modale demonstratiegegevens verwerken en multi-modale uitvoer produceren, terwijl we nauwkeurig en precies blijven. We tonen ook de voordelen van conditionering op relevante lokale geometrische kenmerken, terwijl irrelevante globale structuur die zowel generalisatie als precisie schaadt, wordt genegeerd. We demonstreren onze aanpak op drie verschillende herschikkingstaken die het omgaan met multi-modaliteit en generalisatie over objectvorm en pose vereisen, zowel in simulatie als in de echte wereld. Projectwebsite, code en video's: https://anthonysimeonov.github.io/rpdiff-multi-modal/
English
We propose a system for rearranging objects in a scene to achieve a desired object-scene placing relationship, such as a book inserted in an open slot of a bookshelf. The pipeline generalizes to novel geometries, poses, and layouts of both scenes and objects, and is trained from demonstrations to operate directly on 3D point clouds. Our system overcomes challenges associated with the existence of many geometrically-similar rearrangement solutions for a given scene. By leveraging an iterative pose de-noising training procedure, we can fit multi-modal demonstration data and produce multi-modal outputs while remaining precise and accurate. We also show the advantages of conditioning on relevant local geometric features while ignoring irrelevant global structure that harms both generalization and precision. We demonstrate our approach on three distinct rearrangement tasks that require handling multi-modality and generalization over object shape and pose in both simulation and the real world. Project website, code, and videos: https://anthonysimeonov.github.io/rpdiff-multi-modal/
PDF40December 15, 2024