ChatPaper.aiChatPaper

KUDA : Points clés pour unifier l'apprentissage dynamique et l'incitation visuelle pour la manipulation robotique à vocabulaire ouvert

KUDA: Keypoints to Unify Dynamics Learning and Visual Prompting for Open-Vocabulary Robotic Manipulation

March 13, 2025
Auteurs: Zixian Liu, Mingtong Zhang, Yunzhu Li
cs.AI

Résumé

Avec les progrès rapides des grands modèles de langage (LLMs) et des modèles vision-langage (VLMs), des avancées significatives ont été réalisées dans le développement de systèmes de manipulation robotique à vocabulaire ouvert. Cependant, de nombreuses approches existantes négligent l'importance de la dynamique des objets, limitant ainsi leur applicabilité à des tâches plus complexes et dynamiques. Dans ce travail, nous présentons KUDA, un système de manipulation à vocabulaire ouvert qui intègre l'apprentissage de la dynamique et l'invite visuelle par le biais de points clés, en exploitant à la fois les VLMs et des modèles de dynamique neuronaux basés sur l'apprentissage. Notre idée clé est qu'une spécification de cible basée sur des points clés est à la fois interprétable par les VLMs et peut être efficacement traduite en fonctions de coût pour la planification basée sur des modèles. Étant donné des instructions linguistiques et des observations visuelles, KUDA attribue d'abord des points clés à l'image RVB et interroge le VLM pour générer des spécifications de cible. Ces représentations abstraites basées sur des points clés sont ensuite converties en fonctions de coût, qui sont optimisées à l'aide d'un modèle de dynamique appris pour produire des trajectoires robotiques. Nous évaluons KUDA sur une gamme de tâches de manipulation, incluant des instructions linguistiques libres sur diverses catégories d'objets, des interactions multi-objets, et des objets déformables ou granulaires, démontrant ainsi l'efficacité de notre cadre. La page du projet est disponible à l'adresse http://kuda-dynamics.github.io.
English
With the rapid advancement of large language models (LLMs) and vision-language models (VLMs), significant progress has been made in developing open-vocabulary robotic manipulation systems. However, many existing approaches overlook the importance of object dynamics, limiting their applicability to more complex, dynamic tasks. In this work, we introduce KUDA, an open-vocabulary manipulation system that integrates dynamics learning and visual prompting through keypoints, leveraging both VLMs and learning-based neural dynamics models. Our key insight is that a keypoint-based target specification is simultaneously interpretable by VLMs and can be efficiently translated into cost functions for model-based planning. Given language instructions and visual observations, KUDA first assigns keypoints to the RGB image and queries the VLM to generate target specifications. These abstract keypoint-based representations are then converted into cost functions, which are optimized using a learned dynamics model to produce robotic trajectories. We evaluate KUDA on a range of manipulation tasks, including free-form language instructions across diverse object categories, multi-object interactions, and deformable or granular objects, demonstrating the effectiveness of our framework. The project page is available at http://kuda-dynamics.github.io.

Summary

AI-Generated Summary

PDF32March 19, 2025