ChatPaper.aiChatPaper

RoboCook: Manipulação de Objetos Elasto-Plásticos em Longo Prazo com Diversas Ferramentas

RoboCook: Long-Horizon Elasto-Plastic Object Manipulation with Diverse Tools

June 26, 2023
Autores: Haochen Shi, Huazhe Xu, Samuel Clarke, Yunzhu Li, Jiajun Wu
cs.AI

Resumo

Os seres humanos se destacam em tarefas complexas de manipulação de corpos moles de longo horizonte por meio do uso flexível de ferramentas: assar pão exige uma faca para cortar a massa e um rolo para achatar. Frequentemente considerado uma marca registrada da cognição humana, o uso de ferramentas em robôs autônomos permanece limitado devido aos desafios na compreensão das interações entre ferramentas e objetos. Aqui, desenvolvemos um sistema robótico inteligente, o RoboCook, que percebe, modela e manipula objetos elasto-plásticos com diversas ferramentas. O RoboCook utiliza representações de cena baseadas em nuvens de pontos, modela interações ferramenta-objeto com Redes Neurais de Grafos (GNNs) e combina classificação de ferramentas com aprendizado de políticas auto-supervisionado para elaborar planos de manipulação. Demonstramos que, a partir de apenas 20 minutos de dados de interação do mundo real por ferramenta, um braço robótico de propósito geral pode aprender tarefas complexas de manipulação de objetos moles de longo horizonte, como fazer bolinhos e biscoitos em forma de letras. Avaliações extensivas mostram que o RoboCook supera substancialmente as abordagens state-of-the-art, exibe robustez contra distúrbios externos severos e demonstra adaptabilidade a diferentes materiais.
English
Humans excel in complex long-horizon soft body manipulation tasks via flexible tool use: bread baking requires a knife to slice the dough and a rolling pin to flatten it. Often regarded as a hallmark of human cognition, tool use in autonomous robots remains limited due to challenges in understanding tool-object interactions. Here we develop an intelligent robotic system, RoboCook, which perceives, models, and manipulates elasto-plastic objects with various tools. RoboCook uses point cloud scene representations, models tool-object interactions with Graph Neural Networks (GNNs), and combines tool classification with self-supervised policy learning to devise manipulation plans. We demonstrate that from just 20 minutes of real-world interaction data per tool, a general-purpose robot arm can learn complex long-horizon soft object manipulation tasks, such as making dumplings and alphabet letter cookies. Extensive evaluations show that RoboCook substantially outperforms state-of-the-art approaches, exhibits robustness against severe external disturbances, and demonstrates adaptability to different materials.
PDF60March 23, 2026