Динамическое обучение моделей с изменяемым разрешением для манипуляции с кучами объектов
Dynamic-Resolution Model Learning for Object Pile Manipulation
June 29, 2023
Авторы: Yixuan Wang, Yunzhu Li, Katherine Driggs-Campbell, Li Fei-Fei, Jiajun Wu
cs.AI
Аннотация
Модели динамики, обученные на основе визуальных наблюдений, доказали свою эффективность в различных задачах роботизированного манипулирования. Одним из ключевых вопросов при обучении таких моделей динамики является выбор представления сцены. Предыдущие работы обычно предполагают использование представления с фиксированной размерностью или разрешением, что может быть неэффективным для простых задач и недостаточным для более сложных. В данной работе мы исследуем, как можно обучать динамические и адаптивные представления на разных уровнях абстракции, чтобы достичь оптимального баланса между эффективностью и результативностью. В частности, мы создаем динамические представления среды с переменным разрешением в виде частиц и обучаем унифицированную модель динамики с использованием графовых нейронных сетей (GNN), которая позволяет непрерывно выбирать уровень абстракции. Во время тестирования агент может адаптивно определять оптимальное разрешение на каждом шаге прогнозирующего управления (MPC). Мы оцениваем наш метод на задаче манипулирования кучами объектов, с которой часто сталкиваемся в кулинарии, сельском хозяйстве, производстве и фармацевтике. В ходе всесторонних оценок как в симуляции, так и в реальном мире мы показываем, что наш метод значительно превосходит современные подходы с фиксированным разрешением в задачах сбора, сортировки и перераспределения гранулированных куч объектов, таких как кофейные зерна, миндаль, кукуруза и т.д.
English
Dynamics models learned from visual observations have shown to be effective
in various robotic manipulation tasks. One of the key questions for learning
such dynamics models is what scene representation to use. Prior works typically
assume representation at a fixed dimension or resolution, which may be
inefficient for simple tasks and ineffective for more complicated tasks. In
this work, we investigate how to learn dynamic and adaptive representations at
different levels of abstraction to achieve the optimal trade-off between
efficiency and effectiveness. Specifically, we construct dynamic-resolution
particle representations of the environment and learn a unified dynamics model
using graph neural networks (GNNs) that allows continuous selection of the
abstraction level. During test time, the agent can adaptively determine the
optimal resolution at each model-predictive control (MPC) step. We evaluate our
method in object pile manipulation, a task we commonly encounter in cooking,
agriculture, manufacturing, and pharmaceutical applications. Through
comprehensive evaluations both in the simulation and the real world, we show
that our method achieves significantly better performance than state-of-the-art
fixed-resolution baselines at the gathering, sorting, and redistribution of
granular object piles made with various instances like coffee beans, almonds,
corn, etc.