ChatPaper.aiChatPaper

Apprentissage de modèles à résolution dynamique pour la manipulation de piles d'objets

Dynamic-Resolution Model Learning for Object Pile Manipulation

June 29, 2023
Auteurs: Yixuan Wang, Yunzhu Li, Katherine Driggs-Campbell, Li Fei-Fei, Jiajun Wu
cs.AI

Résumé

Les modèles de dynamique appris à partir d'observations visuelles se sont révélés efficaces pour diverses tâches de manipulation robotique. L'une des questions clés pour l'apprentissage de tels modèles de dynamique est le choix de la représentation de la scène à utiliser. Les travaux antérieurs supposent généralement une représentation à dimension ou résolution fixe, ce qui peut s'avérer inefficace pour des tâches simples et inadapté pour des tâches plus complexes. Dans ce travail, nous étudions comment apprendre des représentations dynamiques et adaptatives à différents niveaux d'abstraction pour atteindre le meilleur compromis entre efficacité et performance. Plus précisément, nous construisons des représentations particulaires à résolution dynamique de l'environnement et apprenons un modèle de dynamique unifié à l'aide de réseaux de neurones graphiques (GNN) qui permet une sélection continue du niveau d'abstraction. Pendant la phase de test, l'agent peut déterminer de manière adaptative la résolution optimale à chaque étape de contrôle prédictif par modèle (MPC). Nous évaluons notre méthode dans la manipulation de tas d'objets, une tâche couramment rencontrée dans les domaines de la cuisine, de l'agriculture, de la fabrication et des applications pharmaceutiques. Grâce à des évaluations approfondies en simulation et dans le monde réel, nous montrons que notre méthode atteint des performances significativement meilleures que les approches de référence à résolution fixe pour le rassemblement, le tri et la redistribution de tas d'objets granulaires composés de divers éléments tels que des grains de café, des amandes, du maïs, etc.
English
Dynamics models learned from visual observations have shown to be effective in various robotic manipulation tasks. One of the key questions for learning such dynamics models is what scene representation to use. Prior works typically assume representation at a fixed dimension or resolution, which may be inefficient for simple tasks and ineffective for more complicated tasks. In this work, we investigate how to learn dynamic and adaptive representations at different levels of abstraction to achieve the optimal trade-off between efficiency and effectiveness. Specifically, we construct dynamic-resolution particle representations of the environment and learn a unified dynamics model using graph neural networks (GNNs) that allows continuous selection of the abstraction level. During test time, the agent can adaptively determine the optimal resolution at each model-predictive control (MPC) step. We evaluate our method in object pile manipulation, a task we commonly encounter in cooking, agriculture, manufacturing, and pharmaceutical applications. Through comprehensive evaluations both in the simulation and the real world, we show that our method achieves significantly better performance than state-of-the-art fixed-resolution baselines at the gathering, sorting, and redistribution of granular object piles made with various instances like coffee beans, almonds, corn, etc.
PDF60December 15, 2024