ChatPaper.aiChatPaper

KUDA: Puntos clave para unificar el aprendizaje de dinámicas y el prompting visual para la manipulación robótica de vocabulario abierto

KUDA: Keypoints to Unify Dynamics Learning and Visual Prompting for Open-Vocabulary Robotic Manipulation

March 13, 2025
Autores: Zixian Liu, Mingtong Zhang, Yunzhu Li
cs.AI

Resumen

Con el rápido avance de los modelos de lenguaje de gran escala (LLMs) y los modelos de visión-lenguaje (VLMs), se han logrado avances significativos en el desarrollo de sistemas de manipulación robótica de vocabulario abierto. Sin embargo, muchos enfoques existentes pasan por alto la importancia de la dinámica de los objetos, lo que limita su aplicabilidad a tareas más complejas y dinámicas. En este trabajo, presentamos KUDA, un sistema de manipulación de vocabulario abierto que integra el aprendizaje de dinámicas y el prompting visual a través de puntos clave, aprovechando tanto los VLMs como los modelos de dinámica neuronal basados en aprendizaje. Nuestra idea clave es que una especificación de objetivos basada en puntos clave es simultáneamente interpretable por los VLMs y puede traducirse eficientemente en funciones de costo para la planificación basada en modelos. Dadas instrucciones en lenguaje natural y observaciones visuales, KUDA primero asigna puntos clave a la imagen RGB y consulta el VLM para generar especificaciones de objetivos. Estas representaciones abstractas basadas en puntos clave se convierten luego en funciones de costo, que se optimizan utilizando un modelo de dinámica aprendido para producir trayectorias robóticas. Evaluamos KUDA en una variedad de tareas de manipulación, incluyendo instrucciones de lenguaje libre en diversas categorías de objetos, interacciones con múltiples objetos y objetos deformables o granulares, demostrando la efectividad de nuestro marco de trabajo. La página del proyecto está disponible en http://kuda-dynamics.github.io.
English
With the rapid advancement of large language models (LLMs) and vision-language models (VLMs), significant progress has been made in developing open-vocabulary robotic manipulation systems. However, many existing approaches overlook the importance of object dynamics, limiting their applicability to more complex, dynamic tasks. In this work, we introduce KUDA, an open-vocabulary manipulation system that integrates dynamics learning and visual prompting through keypoints, leveraging both VLMs and learning-based neural dynamics models. Our key insight is that a keypoint-based target specification is simultaneously interpretable by VLMs and can be efficiently translated into cost functions for model-based planning. Given language instructions and visual observations, KUDA first assigns keypoints to the RGB image and queries the VLM to generate target specifications. These abstract keypoint-based representations are then converted into cost functions, which are optimized using a learned dynamics model to produce robotic trajectories. We evaluate KUDA on a range of manipulation tasks, including free-form language instructions across diverse object categories, multi-object interactions, and deformable or granular objects, demonstrating the effectiveness of our framework. The project page is available at http://kuda-dynamics.github.io.

Summary

AI-Generated Summary

PDF32March 19, 2025