Aprendizaje de Modelos de Resolución Dinámica para la Manipulación de Pilas de Objetos
Dynamic-Resolution Model Learning for Object Pile Manipulation
June 29, 2023
Autores: Yixuan Wang, Yunzhu Li, Katherine Driggs-Campbell, Li Fei-Fei, Jiajun Wu
cs.AI
Resumen
Los modelos de dinámica aprendidos a partir de observaciones visuales han demostrado ser efectivos en diversas tareas de manipulación robótica. Una de las preguntas clave para aprender tales modelos de dinámica es qué representación de la escena utilizar. Trabajos previos suelen asumir representaciones con una dimensión o resolución fija, lo que puede ser ineficiente para tareas simples e inefectivo para tareas más complejas. En este trabajo, investigamos cómo aprender representaciones dinámicas y adaptativas en diferentes niveles de abstracción para lograr el equilibrio óptimo entre eficiencia y efectividad. Específicamente, construimos representaciones de partículas con resolución dinámica del entorno y aprendemos un modelo de dinámica unificado utilizando redes neuronales de grafos (GNNs) que permite la selección continua del nivel de abstracción. Durante la fase de prueba, el agente puede determinar de manera adaptativa la resolución óptima en cada paso de control predictivo basado en modelos (MPC). Evaluamos nuestro método en la manipulación de pilas de objetos, una tarea común en aplicaciones de cocina, agricultura, manufactura y farmacéutica. A través de evaluaciones exhaustivas tanto en simulación como en el mundo real, demostramos que nuestro método logra un rendimiento significativamente mejor que los enfoques de referencia con resolución fija en la recolección, clasificación y redistribución de pilas de objetos granulares compuestas por instancias como granos de café, almendras, maíz, etc.
English
Dynamics models learned from visual observations have shown to be effective
in various robotic manipulation tasks. One of the key questions for learning
such dynamics models is what scene representation to use. Prior works typically
assume representation at a fixed dimension or resolution, which may be
inefficient for simple tasks and ineffective for more complicated tasks. In
this work, we investigate how to learn dynamic and adaptive representations at
different levels of abstraction to achieve the optimal trade-off between
efficiency and effectiveness. Specifically, we construct dynamic-resolution
particle representations of the environment and learn a unified dynamics model
using graph neural networks (GNNs) that allows continuous selection of the
abstraction level. During test time, the agent can adaptively determine the
optimal resolution at each model-predictive control (MPC) step. We evaluate our
method in object pile manipulation, a task we commonly encounter in cooking,
agriculture, manufacturing, and pharmaceutical applications. Through
comprehensive evaluations both in the simulation and the real world, we show
that our method achieves significantly better performance than state-of-the-art
fixed-resolution baselines at the gathering, sorting, and redistribution of
granular object piles made with various instances like coffee beans, almonds,
corn, etc.