물체 더미 조작을 위한 동적 해상도 모델 학습
Dynamic-Resolution Model Learning for Object Pile Manipulation
June 29, 2023
저자: Yixuan Wang, Yunzhu Li, Katherine Driggs-Campbell, Li Fei-Fei, Jiajun Wu
cs.AI
초록
시각적 관찰로부터 학습된 동역학 모델은 다양한 로봇 조작 작업에서 효과적인 것으로 입증되었습니다. 이러한 동역학 모델을 학습하는 데 있어 핵심적인 질문 중 하나는 어떤 장면 표현을 사용할 것인가입니다. 기존 연구들은 일반적으로 고정된 차원이나 해상도의 표현을 가정하는데, 이는 단순한 작업에는 비효율적이고 더 복잡한 작업에는 효과적이지 않을 수 있습니다. 본 연구에서는 효율성과 효과성 사이의 최적의 균형을 달성하기 위해 다양한 추상화 수준에서 동적이고 적응적인 표현을 학습하는 방법을 탐구합니다. 구체적으로, 우리는 환경의 동적 해상도 입자 표현을 구성하고 그래프 신경망(GNN)을 사용하여 추상화 수준을 연속적으로 선택할 수 있는 통합 동역학 모델을 학습합니다. 테스트 시, 에이전트는 각 모델 예측 제어(MPC) 단계에서 최적의 해상도를 적응적으로 결정할 수 있습니다. 우리는 이 방법을 요리, 농업, 제조, 제약 응용 프로그램에서 흔히 접하는 물체 더미 조작 작업에서 평가합니다. 시뮬레이션과 실제 환경에서의 포괄적인 평가를 통해, 우리의 방법이 커피콩, 아몬드, 옥수수 등 다양한 재료로 만들어진 입자 더미의 수집, 분류, 재분배 작업에서 최신 고정 해상도 기준선보다 훨씬 더 나은 성능을 달성함을 보여줍니다.
English
Dynamics models learned from visual observations have shown to be effective
in various robotic manipulation tasks. One of the key questions for learning
such dynamics models is what scene representation to use. Prior works typically
assume representation at a fixed dimension or resolution, which may be
inefficient for simple tasks and ineffective for more complicated tasks. In
this work, we investigate how to learn dynamic and adaptive representations at
different levels of abstraction to achieve the optimal trade-off between
efficiency and effectiveness. Specifically, we construct dynamic-resolution
particle representations of the environment and learn a unified dynamics model
using graph neural networks (GNNs) that allows continuous selection of the
abstraction level. During test time, the agent can adaptively determine the
optimal resolution at each model-predictive control (MPC) step. We evaluate our
method in object pile manipulation, a task we commonly encounter in cooking,
agriculture, manufacturing, and pharmaceutical applications. Through
comprehensive evaluations both in the simulation and the real world, we show
that our method achieves significantly better performance than state-of-the-art
fixed-resolution baselines at the gathering, sorting, and redistribution of
granular object piles made with various instances like coffee beans, almonds,
corn, etc.