Aprendizado de Modelo de Resolução Dinâmica para Manipulação de Pilhas de Objetos
Dynamic-Resolution Model Learning for Object Pile Manipulation
June 29, 2023
Autores: Yixuan Wang, Yunzhu Li, Katherine Driggs-Campbell, Li Fei-Fei, Jiajun Wu
cs.AI
Resumo
Modelos de dinâmica aprendidos a partir de observações visuais têm se mostrado eficazes em diversas tarefas de manipulação robótica. Uma das principais questões para aprender tais modelos de dinâmica é qual representação de cena utilizar. Trabalhos anteriores geralmente assumem representações em uma dimensão ou resolução fixa, o que pode ser ineficiente para tarefas simples e ineficaz para tarefas mais complexas. Neste trabalho, investigamos como aprender representações dinâmicas e adaptáveis em diferentes níveis de abstração para alcançar o equilíbrio ideal entre eficiência e eficácia. Especificamente, construímos representações de partículas com resolução dinâmica do ambiente e aprendemos um modelo de dinâmica unificado usando redes neurais em grafos (GNNs) que permite a seleção contínua do nível de abstração. Durante o teste, o agente pode determinar adaptativamente a resolução ideal em cada etapa de controle preditivo por modelo (MPC). Avaliamos nosso método na manipulação de pilhas de objetos, uma tarefa comumente encontrada em aplicações culinárias, agrícolas, industriais e farmacêuticas. Por meio de avaliações abrangentes tanto em simulação quanto no mundo real, demonstramos que nosso método alcança um desempenho significativamente superior aos métodos de referência de resolução fixa mais avançados na coleta, classificação e redistribuição de pilhas de objetos granulares feitas com diversos materiais, como grãos de café, amêndoas, milho, etc.
English
Dynamics models learned from visual observations have shown to be effective
in various robotic manipulation tasks. One of the key questions for learning
such dynamics models is what scene representation to use. Prior works typically
assume representation at a fixed dimension or resolution, which may be
inefficient for simple tasks and ineffective for more complicated tasks. In
this work, we investigate how to learn dynamic and adaptive representations at
different levels of abstraction to achieve the optimal trade-off between
efficiency and effectiveness. Specifically, we construct dynamic-resolution
particle representations of the environment and learn a unified dynamics model
using graph neural networks (GNNs) that allows continuous selection of the
abstraction level. During test time, the agent can adaptively determine the
optimal resolution at each model-predictive control (MPC) step. We evaluate our
method in object pile manipulation, a task we commonly encounter in cooking,
agriculture, manufacturing, and pharmaceutical applications. Through
comprehensive evaluations both in the simulation and the real world, we show
that our method achieves significantly better performance than state-of-the-art
fixed-resolution baselines at the gathering, sorting, and redistribution of
granular object piles made with various instances like coffee beans, almonds,
corn, etc.