Aprendizaje de Modelos de Resolución Dinámica para la Manipulación de Pilas de Objetos

Resumen

Los modelos de dinámica aprendidos a partir de observaciones visuales han demostrado ser efectivos en diversas tareas de manipulación robótica. Una de las preguntas clave para aprender tales modelos de dinámica es qué representación de la escena utilizar. Trabajos previos suelen asumir representaciones con una dimensión o resolución fija, lo que puede ser ineficiente para tareas simples e inefectivo para tareas más complejas. En este trabajo, investigamos cómo aprender representaciones dinámicas y adaptativas en diferentes niveles de abstracción para lograr el equilibrio óptimo entre eficiencia y efectividad. Específicamente, construimos representaciones de partículas con resolución dinámica del entorno y aprendemos un modelo de dinámica unificado utilizando redes neuronales de grafos (GNNs) que permite la selección continua del nivel de abstracción. Durante la fase de prueba, el agente puede determinar de manera adaptativa la resolución óptima en cada paso de control predictivo basado en modelos (MPC). Evaluamos nuestro método en la manipulación de pilas de objetos, una tarea común en aplicaciones de cocina, agricultura, manufactura y farmacéutica. A través de evaluaciones exhaustivas tanto en simulación como en el mundo real, demostramos que nuestro método logra un rendimiento significativamente mejor que los enfoques de referencia con resolución fija en la recolección, clasificación y redistribución de pilas de objetos granulares compuestas por instancias como granos de café, almendras, maíz, etc.

English

Dynamics models learned from visual observations have shown to be effective in various robotic manipulation tasks. One of the key questions for learning such dynamics models is what scene representation to use. Prior works typically assume representation at a fixed dimension or resolution, which may be inefficient for simple tasks and ineffective for more complicated tasks. In this work, we investigate how to learn dynamic and adaptive representations at different levels of abstraction to achieve the optimal trade-off between efficiency and effectiveness. Specifically, we construct dynamic-resolution particle representations of the environment and learn a unified dynamics model using graph neural networks (GNNs) that allows continuous selection of the abstraction level. During test time, the agent can adaptively determine the optimal resolution at each model-predictive control (MPC) step. We evaluate our method in object pile manipulation, a task we commonly encounter in cooking, agriculture, manufacturing, and pharmaceutical applications. Through comprehensive evaluations both in the simulation and the real world, we show that our method achieves significantly better performance than state-of-the-art fixed-resolution baselines at the gathering, sorting, and redistribution of granular object piles made with various instances like coffee beans, almonds, corn, etc.

Aprendizaje de Modelos de Resolución Dinámica para la Manipulación de Pilas de Objetos

Dynamic-Resolution Model Learning for Object Pile Manipulation

Resumen

Support