KUDA: Punti chiave per unificare l'apprendimento dinamico e il prompting visivo per la manipolazione robotica a vocabolario aperto
KUDA: Keypoints to Unify Dynamics Learning and Visual Prompting for Open-Vocabulary Robotic Manipulation
March 13, 2025
Autori: Zixian Liu, Mingtong Zhang, Yunzhu Li
cs.AI
Abstract
Con il rapido avanzamento dei modelli linguistici su larga scala (LLMs) e dei modelli visione-linguaggio (VLMs), sono stati compiuti progressi significativi nello sviluppo di sistemi di manipolazione robotica a vocabolario aperto. Tuttavia, molti approcci esistenti trascurano l'importanza della dinamica degli oggetti, limitando la loro applicabilità a compiti più complessi e dinamici. In questo lavoro, introduciamo KUDA, un sistema di manipolazione a vocabolario aperto che integra l'apprendimento della dinamica e il prompting visivo attraverso keypoint, sfruttando sia i VLMs che i modelli neurali basati sull'apprendimento della dinamica. La nostra intuizione chiave è che una specifica del target basata su keypoint è contemporaneamente interpretabile dai VLMs e può essere efficientemente tradotta in funzioni di costo per la pianificazione basata su modelli. Dati istruzioni linguistiche e osservazioni visive, KUDA assegna prima i keypoint all'immagine RGB e interroga il VLM per generare specifiche del target. Queste rappresentazioni astratte basate su keypoint vengono poi convertite in funzioni di costo, che vengono ottimizzate utilizzando un modello di dinamica appreso per produrre traiettorie robotiche. Valutiamo KUDA su una gamma di compiti di manipolazione, includendo istruzioni linguistiche libere su diverse categorie di oggetti, interazioni multi-oggetto e oggetti deformabili o granulari, dimostrando l'efficacia del nostro framework. La pagina del progetto è disponibile all'indirizzo http://kuda-dynamics.github.io.
English
With the rapid advancement of large language models (LLMs) and
vision-language models (VLMs), significant progress has been made in developing
open-vocabulary robotic manipulation systems. However, many existing approaches
overlook the importance of object dynamics, limiting their applicability to
more complex, dynamic tasks. In this work, we introduce KUDA, an
open-vocabulary manipulation system that integrates dynamics learning and
visual prompting through keypoints, leveraging both VLMs and learning-based
neural dynamics models. Our key insight is that a keypoint-based target
specification is simultaneously interpretable by VLMs and can be efficiently
translated into cost functions for model-based planning. Given language
instructions and visual observations, KUDA first assigns keypoints to the RGB
image and queries the VLM to generate target specifications. These abstract
keypoint-based representations are then converted into cost functions, which
are optimized using a learned dynamics model to produce robotic trajectories.
We evaluate KUDA on a range of manipulation tasks, including free-form language
instructions across diverse object categories, multi-object interactions, and
deformable or granular objects, demonstrating the effectiveness of our
framework. The project page is available at http://kuda-dynamics.github.io.