Apprendimento di Modelli a Risoluzione Dinamica per la Manipolazione di Pile di Oggetti

Abstract

I modelli dinamici appresi da osservazioni visive si sono dimostrati efficaci in vari compiti di manipolazione robotica. Una delle questioni chiave per l'apprendimento di tali modelli dinamici è quale rappresentazione della scena utilizzare. I lavori precedenti assumono tipicamente una rappresentazione a dimensione o risoluzione fissa, che può risultare inefficiente per compiti semplici e inefficace per compiti più complessi. In questo lavoro, indaghiamo come apprendere rappresentazioni dinamiche e adattive a diversi livelli di astrazione per ottenere il miglior compromesso tra efficienza ed efficacia. Nello specifico, costruiamo rappresentazioni particellari a risoluzione dinamica dell'ambiente e apprendiamo un modello dinamico unificato utilizzando reti neurali a grafo (GNN) che consente la selezione continua del livello di astrazione. Durante il test, l'agente può determinare in modo adattivo la risoluzione ottimale ad ogni passo di controllo predittivo del modello (MPC). Valutiamo il nostro metodo nella manipolazione di pile di oggetti, un compito che incontriamo comunemente in applicazioni culinarie, agricole, manifatturiere e farmaceutiche. Attraverso valutazioni complete sia in simulazione che nel mondo reale, dimostriamo che il nostro metodo raggiunge prestazioni significativamente migliori rispetto ai metodi di riferimento a risoluzione fissa all'avanguardia nel raggruppamento, ordinamento e ridistribuzione di pile di oggetti granulari realizzati con varie istanze come chicchi di caffè, mandorle, mais, ecc.

English

Dynamics models learned from visual observations have shown to be effective in various robotic manipulation tasks. One of the key questions for learning such dynamics models is what scene representation to use. Prior works typically assume representation at a fixed dimension or resolution, which may be inefficient for simple tasks and ineffective for more complicated tasks. In this work, we investigate how to learn dynamic and adaptive representations at different levels of abstraction to achieve the optimal trade-off between efficiency and effectiveness. Specifically, we construct dynamic-resolution particle representations of the environment and learn a unified dynamics model using graph neural networks (GNNs) that allows continuous selection of the abstraction level. During test time, the agent can adaptively determine the optimal resolution at each model-predictive control (MPC) step. We evaluate our method in object pile manipulation, a task we commonly encounter in cooking, agriculture, manufacturing, and pharmaceutical applications. Through comprehensive evaluations both in the simulation and the real world, we show that our method achieves significantly better performance than state-of-the-art fixed-resolution baselines at the gathering, sorting, and redistribution of granular object piles made with various instances like coffee beans, almonds, corn, etc.

Apprendimento di Modelli a Risoluzione Dinamica per la Manipolazione di Pile di Oggetti

Dynamic-Resolution Model Learning for Object Pile Manipulation

Abstract

Support