RoboCook: Манипуляция эластопластичными объектами на длительных временных горизонтах с использованием разнообразных инструментов
RoboCook: Long-Horizon Elasto-Plastic Object Manipulation with Diverse Tools
June 26, 2023
Авторы: Haochen Shi, Huazhe Xu, Samuel Clarke, Yunzhu Li, Jiajun Wu
cs.AI
Аннотация
Люди преуспевают в сложных задачах манипуляции с мягкими объектами на длительных временных горизонтах благодаря гибкому использованию инструментов: например, выпечка хлеба требует ножа для нарезки теста и скалки для его раскатывания. Использование инструментов, часто рассматриваемое как отличительная черта человеческого познания, остается ограниченным в автономных роботах из-за сложностей в понимании взаимодействий между инструментами и объектами. В данной работе мы разрабатываем интеллектуальную роботизированную систему RoboCook, которая воспринимает, моделирует и манипулирует упруго-пластичными объектами с использованием различных инструментов. RoboCook использует представления сцен в виде облаков точек, моделирует взаимодействия инструментов с объектами с помощью графовых нейронных сетей (GNN) и сочетает классификацию инструментов с самообучаемым обучением стратегий для разработки планов манипуляции. Мы демонстрируем, что всего за 20 минут данных о реальных взаимодействиях на один инструмент, универсальный роботизированный манипулятор может научиться выполнять сложные задачи манипуляции с мягкими объектами на длительных временных горизонтах, такие как приготовление пельменей и печенья в форме букв алфавита. Обширные оценки показывают, что RoboCook значительно превосходит современные подходы, демонстрирует устойчивость к серьезным внешним воздействиям и адаптивность к различным материалам.
English
Humans excel in complex long-horizon soft body manipulation tasks via
flexible tool use: bread baking requires a knife to slice the dough and a
rolling pin to flatten it. Often regarded as a hallmark of human cognition,
tool use in autonomous robots remains limited due to challenges in
understanding tool-object interactions. Here we develop an intelligent robotic
system, RoboCook, which perceives, models, and manipulates elasto-plastic
objects with various tools. RoboCook uses point cloud scene representations,
models tool-object interactions with Graph Neural Networks (GNNs), and combines
tool classification with self-supervised policy learning to devise manipulation
plans. We demonstrate that from just 20 minutes of real-world interaction data
per tool, a general-purpose robot arm can learn complex long-horizon soft
object manipulation tasks, such as making dumplings and alphabet letter
cookies. Extensive evaluations show that RoboCook substantially outperforms
state-of-the-art approaches, exhibits robustness against severe external
disturbances, and demonstrates adaptability to different materials.