KUDA: Punti chiave per unificare l'apprendimento dinamico e il prompting visivo per la manipolazione robotica a vocabolario aperto

Abstract

Con il rapido avanzamento dei modelli linguistici su larga scala (LLMs) e dei modelli visione-linguaggio (VLMs), sono stati compiuti progressi significativi nello sviluppo di sistemi di manipolazione robotica a vocabolario aperto. Tuttavia, molti approcci esistenti trascurano l'importanza della dinamica degli oggetti, limitando la loro applicabilità a compiti più complessi e dinamici. In questo lavoro, introduciamo KUDA, un sistema di manipolazione a vocabolario aperto che integra l'apprendimento della dinamica e il prompting visivo attraverso keypoint, sfruttando sia i VLMs che i modelli neurali basati sull'apprendimento della dinamica. La nostra intuizione chiave è che una specifica del target basata su keypoint è contemporaneamente interpretabile dai VLMs e può essere efficientemente tradotta in funzioni di costo per la pianificazione basata su modelli. Dati istruzioni linguistiche e osservazioni visive, KUDA assegna prima i keypoint all'immagine RGB e interroga il VLM per generare specifiche del target. Queste rappresentazioni astratte basate su keypoint vengono poi convertite in funzioni di costo, che vengono ottimizzate utilizzando un modello di dinamica appreso per produrre traiettorie robotiche. Valutiamo KUDA su una gamma di compiti di manipolazione, includendo istruzioni linguistiche libere su diverse categorie di oggetti, interazioni multi-oggetto e oggetti deformabili o granulari, dimostrando l'efficacia del nostro framework. La pagina del progetto è disponibile all'indirizzo http://kuda-dynamics.github.io.

English

With the rapid advancement of large language models (LLMs) and vision-language models (VLMs), significant progress has been made in developing open-vocabulary robotic manipulation systems. However, many existing approaches overlook the importance of object dynamics, limiting their applicability to more complex, dynamic tasks. In this work, we introduce KUDA, an open-vocabulary manipulation system that integrates dynamics learning and visual prompting through keypoints, leveraging both VLMs and learning-based neural dynamics models. Our key insight is that a keypoint-based target specification is simultaneously interpretable by VLMs and can be efficiently translated into cost functions for model-based planning. Given language instructions and visual observations, KUDA first assigns keypoints to the RGB image and queries the VLM to generate target specifications. These abstract keypoint-based representations are then converted into cost functions, which are optimized using a learned dynamics model to produce robotic trajectories. We evaluate KUDA on a range of manipulation tasks, including free-form language instructions across diverse object categories, multi-object interactions, and deformable or granular objects, demonstrating the effectiveness of our framework. The project page is available at http://kuda-dynamics.github.io.

KUDA: Punti chiave per unificare l'apprendimento dinamico e il prompting visivo per la manipolazione robotica a vocabolario aperto

KUDA: Keypoints to Unify Dynamics Learning and Visual Prompting for Open-Vocabulary Robotic Manipulation

Abstract

Support