쌓기, 적재, 걸기: 다중 모드 재배치를 위한 관계적 포즈 확산
Shelving, Stacking, Hanging: Relational Pose Diffusion for Multi-modal Rearrangement
July 10, 2023
저자: Anthony Simeonov, Ankit Goyal, Lucas Manuelli, Lin Yen-Chen, Alina Sarmiento, Alberto Rodriguez, Pulkit Agrawal, Dieter Fox
cs.AI
초록
우리는 책장의 열린 슬롯에 책을 삽입하는 것과 같은 원하는 객체-장면 배치 관계를 달성하기 위해 장면 내 객체를 재배치하는 시스템을 제안한다. 이 파이프라인은 장면과 객체의 새로운 기하학적 구조, 자세, 레이아웃에 일반화되며, 3D 포인트 클라우드에서 직접 작동하도록 데모를 통해 학습된다. 우리의 시스템은 주어진 장면에 대해 기하학적으로 유사한 재배치 해결책이 많이 존재하는 것과 관련된 문제를 극복한다. 반복적인 자세 노이즈 제거 학습 절차를 활용하여 다중 모드 데모 데이터를 적합하게 맞추고 정확하고 정밀한 다중 모드 출력을 생성할 수 있다. 또한, 일반화와 정밀도를 해치는 관련 없는 전역 구조를 무시하면서 관련 있는 지역 기하학적 특징을 조건으로 하는 것의 이점을 보여준다. 우리는 시뮬레이션과 실제 세계에서 객체의 형태와 자세에 대한 다중 모드 처리와 일반화가 필요한 세 가지 구별된 재배치 작업에 대해 우리의 접근 방식을 입증한다. 프로젝트 웹사이트, 코드, 비디오: https://anthonysimeonov.github.io/rpdiff-multi-modal/
English
We propose a system for rearranging objects in a scene to achieve a desired
object-scene placing relationship, such as a book inserted in an open slot of a
bookshelf. The pipeline generalizes to novel geometries, poses, and layouts of
both scenes and objects, and is trained from demonstrations to operate directly
on 3D point clouds. Our system overcomes challenges associated with the
existence of many geometrically-similar rearrangement solutions for a given
scene. By leveraging an iterative pose de-noising training procedure, we can
fit multi-modal demonstration data and produce multi-modal outputs while
remaining precise and accurate. We also show the advantages of conditioning on
relevant local geometric features while ignoring irrelevant global structure
that harms both generalization and precision. We demonstrate our approach on
three distinct rearrangement tasks that require handling multi-modality and
generalization over object shape and pose in both simulation and the real
world. Project website, code, and videos:
https://anthonysimeonov.github.io/rpdiff-multi-modal/