ChatPaper.aiChatPaper

쌓기, 적재, 걸기: 다중 모드 재배치를 위한 관계적 포즈 확산

Shelving, Stacking, Hanging: Relational Pose Diffusion for Multi-modal Rearrangement

July 10, 2023
저자: Anthony Simeonov, Ankit Goyal, Lucas Manuelli, Lin Yen-Chen, Alina Sarmiento, Alberto Rodriguez, Pulkit Agrawal, Dieter Fox
cs.AI

초록

우리는 책장의 열린 슬롯에 책을 삽입하는 것과 같은 원하는 객체-장면 배치 관계를 달성하기 위해 장면 내 객체를 재배치하는 시스템을 제안한다. 이 파이프라인은 장면과 객체의 새로운 기하학적 구조, 자세, 레이아웃에 일반화되며, 3D 포인트 클라우드에서 직접 작동하도록 데모를 통해 학습된다. 우리의 시스템은 주어진 장면에 대해 기하학적으로 유사한 재배치 해결책이 많이 존재하는 것과 관련된 문제를 극복한다. 반복적인 자세 노이즈 제거 학습 절차를 활용하여 다중 모드 데모 데이터를 적합하게 맞추고 정확하고 정밀한 다중 모드 출력을 생성할 수 있다. 또한, 일반화와 정밀도를 해치는 관련 없는 전역 구조를 무시하면서 관련 있는 지역 기하학적 특징을 조건으로 하는 것의 이점을 보여준다. 우리는 시뮬레이션과 실제 세계에서 객체의 형태와 자세에 대한 다중 모드 처리와 일반화가 필요한 세 가지 구별된 재배치 작업에 대해 우리의 접근 방식을 입증한다. 프로젝트 웹사이트, 코드, 비디오: https://anthonysimeonov.github.io/rpdiff-multi-modal/
English
We propose a system for rearranging objects in a scene to achieve a desired object-scene placing relationship, such as a book inserted in an open slot of a bookshelf. The pipeline generalizes to novel geometries, poses, and layouts of both scenes and objects, and is trained from demonstrations to operate directly on 3D point clouds. Our system overcomes challenges associated with the existence of many geometrically-similar rearrangement solutions for a given scene. By leveraging an iterative pose de-noising training procedure, we can fit multi-modal demonstration data and produce multi-modal outputs while remaining precise and accurate. We also show the advantages of conditioning on relevant local geometric features while ignoring irrelevant global structure that harms both generalization and precision. We demonstrate our approach on three distinct rearrangement tasks that require handling multi-modality and generalization over object shape and pose in both simulation and the real world. Project website, code, and videos: https://anthonysimeonov.github.io/rpdiff-multi-modal/
PDF40December 15, 2024