Dynamische Auflösungsmodellierung für die Manipulation von Objekthaufen
Dynamic-Resolution Model Learning for Object Pile Manipulation
June 29, 2023
Autoren: Yixuan Wang, Yunzhu Li, Katherine Driggs-Campbell, Li Fei-Fei, Jiajun Wu
cs.AI
Zusammenfassung
Aus visuellen Beobachtungen gelernte Dynamikmodelle haben sich in verschiedenen Robotermanipulationsaufgaben als effektiv erwiesen. Eine der zentralen Fragen beim Erlernen solcher Dynamikmodelle ist, welche Szenendarstellung verwendet werden soll. Frühere Arbeiten gehen typischerweise von einer Darstellung mit fester Dimension oder Auflösung aus, was für einfache Aufgaben ineffizient und für komplexere Aufgaben unzureichend sein kann. In dieser Arbeit untersuchen wir, wie dynamische und adaptive Darstellungen auf verschiedenen Abstraktionsebenen gelernt werden können, um den optimalen Kompromiss zwischen Effizienz und Effektivität zu erreichen. Konkret konstruieren wir dynamische Auflösungs-Partikel-Darstellungen der Umgebung und lernen ein einheitliches Dynamikmodell mithilfe von Graph Neural Networks (GNNs), das eine kontinuierliche Auswahl der Abstraktionsebene ermöglicht. Während der Testphase kann der Agent adaptiv die optimale Auflösung in jedem Modellprädiktiven Kontrollschritt (MPC) bestimmen. Wir evaluieren unsere Methode in der Manipulation von Objekthaufen, einer Aufgabe, die uns häufig in der Küche, Landwirtschaft, Fertigung und pharmazeutischen Anwendungen begegnet. Durch umfassende Bewertungen sowohl in der Simulation als auch in der realen Welt zeigen wir, dass unsere Methode eine signifikant bessere Leistung erzielt als state-of-the-art Baselines mit fester Auflösung beim Sammeln, Sortieren und Umverteilen von granularen Objekthaufen, die aus verschiedenen Instanzen wie Kaffeebohnen, Mandeln, Mais usw. bestehen.
English
Dynamics models learned from visual observations have shown to be effective
in various robotic manipulation tasks. One of the key questions for learning
such dynamics models is what scene representation to use. Prior works typically
assume representation at a fixed dimension or resolution, which may be
inefficient for simple tasks and ineffective for more complicated tasks. In
this work, we investigate how to learn dynamic and adaptive representations at
different levels of abstraction to achieve the optimal trade-off between
efficiency and effectiveness. Specifically, we construct dynamic-resolution
particle representations of the environment and learn a unified dynamics model
using graph neural networks (GNNs) that allows continuous selection of the
abstraction level. During test time, the agent can adaptively determine the
optimal resolution at each model-predictive control (MPC) step. We evaluate our
method in object pile manipulation, a task we commonly encounter in cooking,
agriculture, manufacturing, and pharmaceutical applications. Through
comprehensive evaluations both in the simulation and the real world, we show
that our method achieves significantly better performance than state-of-the-art
fixed-resolution baselines at the gathering, sorting, and redistribution of
granular object piles made with various instances like coffee beans, almonds,
corn, etc.