RoboCook: Manipulación de Objetos Elasto-Plásticos a Largo Plazo con Herramientas Diversas
RoboCook: Long-Horizon Elasto-Plastic Object Manipulation with Diverse Tools
June 26, 2023
Autores: Haochen Shi, Huazhe Xu, Samuel Clarke, Yunzhu Li, Jiajun Wu
cs.AI
Resumen
Los humanos sobresalen en tareas complejas de manipulación de cuerpos blandos a largo plazo mediante el uso flexible de herramientas: hornear pan requiere un cuchillo para cortar la masa y un rodillo para aplanarla. A menudo considerado como un sello distintivo de la cognición humana, el uso de herramientas en robots autónomos sigue siendo limitado debido a los desafíos en la comprensión de las interacciones entre herramientas y objetos. Aquí desarrollamos un sistema robótico inteligente, RoboCook, que percibe, modela y manipula objetos elasto-plásticos con diversas herramientas. RoboCook utiliza representaciones de escenas mediante nubes de puntos, modela las interacciones herramienta-objeto con Redes Neuronales de Grafos (GNNs) y combina la clasificación de herramientas con el aprendizaje de políticas auto-supervisado para diseñar planes de manipulación. Demostramos que, con solo 20 minutos de datos de interacción en el mundo real por herramienta, un brazo robótico de propósito general puede aprender tareas complejas de manipulación de objetos blandos a largo plazo, como hacer dumplings y galletas con letras del alfabeto. Evaluaciones exhaustivas muestran que RoboCook supera sustancialmente a los enfoques más avanzados, exhibe robustez frente a perturbaciones externas severas y demuestra adaptabilidad a diferentes materiales.
English
Humans excel in complex long-horizon soft body manipulation tasks via
flexible tool use: bread baking requires a knife to slice the dough and a
rolling pin to flatten it. Often regarded as a hallmark of human cognition,
tool use in autonomous robots remains limited due to challenges in
understanding tool-object interactions. Here we develop an intelligent robotic
system, RoboCook, which perceives, models, and manipulates elasto-plastic
objects with various tools. RoboCook uses point cloud scene representations,
models tool-object interactions with Graph Neural Networks (GNNs), and combines
tool classification with self-supervised policy learning to devise manipulation
plans. We demonstrate that from just 20 minutes of real-world interaction data
per tool, a general-purpose robot arm can learn complex long-horizon soft
object manipulation tasks, such as making dumplings and alphabet letter
cookies. Extensive evaluations show that RoboCook substantially outperforms
state-of-the-art approaches, exhibits robustness against severe external
disturbances, and demonstrates adaptability to different materials.