Dynamisch-resolutie model leren voor manipulatie van objectstapels
Dynamic-Resolution Model Learning for Object Pile Manipulation
June 29, 2023
Auteurs: Yixuan Wang, Yunzhu Li, Katherine Driggs-Campbell, Li Fei-Fei, Jiajun Wu
cs.AI
Samenvatting
Dynamische modellen die zijn geleerd van visuele observaties, hebben hun effectiviteit bewezen in verschillende robotmanipulatietaken. Een van de belangrijkste vragen bij het leren van dergelijke dynamische modellen is welke scène-representatie te gebruiken. Eerdere werken gaan doorgaans uit van een representatie met een vaste dimensie of resolutie, wat inefficiënt kan zijn voor eenvoudige taken en ondoeltreffend voor complexere taken. In dit werk onderzoeken we hoe dynamische en adaptieve representaties op verschillende abstractieniveaus kunnen worden geleerd om de optimale balans tussen efficiëntie en effectiviteit te bereiken. Specifiek construeren we dynamische-resolutie deeltjesrepresentaties van de omgeving en leren we een geïntegreerd dynamisch model met behulp van grafische neurale netwerken (GNN's) dat een continue selectie van het abstractieniveau mogelijk maakt. Tijdens de testfase kan de agent adaptief de optimale resolutie bepalen bij elke stap van model-predictieve controle (MPC). We evalueren onze methode in het manipuleren van objecthopen, een taak die we vaak tegenkomen in toepassingen zoals koken, landbouw, productie en farmaceutica. Door uitgebreide evaluaties zowel in simulatie als in de echte wereld tonen we aan dat onze methode aanzienlijk betere prestaties behaalt dan state-of-the-art basislijnen met vaste resolutie bij het verzamelen, sorteren en herverdelen van granulaire objecthopen gemaakt met verschillende materialen zoals koffiebonen, amandelen, maïs, enz.
English
Dynamics models learned from visual observations have shown to be effective
in various robotic manipulation tasks. One of the key questions for learning
such dynamics models is what scene representation to use. Prior works typically
assume representation at a fixed dimension or resolution, which may be
inefficient for simple tasks and ineffective for more complicated tasks. In
this work, we investigate how to learn dynamic and adaptive representations at
different levels of abstraction to achieve the optimal trade-off between
efficiency and effectiveness. Specifically, we construct dynamic-resolution
particle representations of the environment and learn a unified dynamics model
using graph neural networks (GNNs) that allows continuous selection of the
abstraction level. During test time, the agent can adaptively determine the
optimal resolution at each model-predictive control (MPC) step. We evaluate our
method in object pile manipulation, a task we commonly encounter in cooking,
agriculture, manufacturing, and pharmaceutical applications. Through
comprehensive evaluations both in the simulation and the real world, we show
that our method achieves significantly better performance than state-of-the-art
fixed-resolution baselines at the gathering, sorting, and redistribution of
granular object piles made with various instances like coffee beans, almonds,
corn, etc.