Aprendizado de Modelo de Resolução Dinâmica para Manipulação de Pilhas de Objetos

Resumo

Modelos de dinâmica aprendidos a partir de observações visuais têm se mostrado eficazes em diversas tarefas de manipulação robótica. Uma das principais questões para aprender tais modelos de dinâmica é qual representação de cena utilizar. Trabalhos anteriores geralmente assumem representações em uma dimensão ou resolução fixa, o que pode ser ineficiente para tarefas simples e ineficaz para tarefas mais complexas. Neste trabalho, investigamos como aprender representações dinâmicas e adaptáveis em diferentes níveis de abstração para alcançar o equilíbrio ideal entre eficiência e eficácia. Especificamente, construímos representações de partículas com resolução dinâmica do ambiente e aprendemos um modelo de dinâmica unificado usando redes neurais em grafos (GNNs) que permite a seleção contínua do nível de abstração. Durante o teste, o agente pode determinar adaptativamente a resolução ideal em cada etapa de controle preditivo por modelo (MPC). Avaliamos nosso método na manipulação de pilhas de objetos, uma tarefa comumente encontrada em aplicações culinárias, agrícolas, industriais e farmacêuticas. Por meio de avaliações abrangentes tanto em simulação quanto no mundo real, demonstramos que nosso método alcança um desempenho significativamente superior aos métodos de referência de resolução fixa mais avançados na coleta, classificação e redistribuição de pilhas de objetos granulares feitas com diversos materiais, como grãos de café, amêndoas, milho, etc.

English

Dynamics models learned from visual observations have shown to be effective in various robotic manipulation tasks. One of the key questions for learning such dynamics models is what scene representation to use. Prior works typically assume representation at a fixed dimension or resolution, which may be inefficient for simple tasks and ineffective for more complicated tasks. In this work, we investigate how to learn dynamic and adaptive representations at different levels of abstraction to achieve the optimal trade-off between efficiency and effectiveness. Specifically, we construct dynamic-resolution particle representations of the environment and learn a unified dynamics model using graph neural networks (GNNs) that allows continuous selection of the abstraction level. During test time, the agent can adaptively determine the optimal resolution at each model-predictive control (MPC) step. We evaluate our method in object pile manipulation, a task we commonly encounter in cooking, agriculture, manufacturing, and pharmaceutical applications. Through comprehensive evaluations both in the simulation and the real world, we show that our method achieves significantly better performance than state-of-the-art fixed-resolution baselines at the gathering, sorting, and redistribution of granular object piles made with various instances like coffee beans, almonds, corn, etc.

Aprendizado de Modelo de Resolução Dinâmica para Manipulação de Pilhas de Objetos

Dynamic-Resolution Model Learning for Object Pile Manipulation

Resumo

Support