ChatPaper.aiChatPaper

KUDA: Sleutelpunten om Dynamisch Leren en Visuele Prompting te Verenigen voor Open-Vocabulair Robotmanipulatie

KUDA: Keypoints to Unify Dynamics Learning and Visual Prompting for Open-Vocabulary Robotic Manipulation

March 13, 2025
Auteurs: Zixian Liu, Mingtong Zhang, Yunzhu Li
cs.AI

Samenvatting

Met de snelle vooruitgang van grote taalmodellen (LLMs) en visie-taalmodellen (VLMs) is aanzienlijke vooruitgang geboekt in de ontwikkeling van open-vocabulair robotmanipulatiesystemen. Veel bestaande benaderingen negeren echter het belang van objectdynamica, wat hun toepasbaarheid op complexere, dynamische taken beperkt. In dit werk introduceren we KUDA, een open-vocabulair manipulatiesysteem dat dynamica-leren en visuele prompting via keypoints integreert, waarbij zowel VLMs als op leren gebaseerde neurale dynamische modellen worden benut. Onze belangrijkste inzicht is dat een op keypoints gebaseerde doelspecificatie tegelijkertijd interpreteerbaar is door VLMs en efficiënt kan worden vertaald naar kostenfuncties voor modelgebaseerde planning. Gegeven taal-instructies en visuele waarnemingen, wijst KUDA eerst keypoints toe aan de RGB-afbeelding en vraagt het VLM om doelspecificaties te genereren. Deze abstracte, op keypoints gebaseerde representaties worden vervolgens omgezet in kostenfuncties, die worden geoptimaliseerd met behulp van een geleerd dynamisch model om robottrajecten te produceren. We evalueren KUDA op een reeks manipulatietaken, waaronder vrije-vorm taal-instructies over diverse objectcategorieën, interacties met meerdere objecten, en vervormbare of korrelige objecten, wat de effectiviteit van ons raamwerk aantoont. De projectpagina is beschikbaar op http://kuda-dynamics.github.io.
English
With the rapid advancement of large language models (LLMs) and vision-language models (VLMs), significant progress has been made in developing open-vocabulary robotic manipulation systems. However, many existing approaches overlook the importance of object dynamics, limiting their applicability to more complex, dynamic tasks. In this work, we introduce KUDA, an open-vocabulary manipulation system that integrates dynamics learning and visual prompting through keypoints, leveraging both VLMs and learning-based neural dynamics models. Our key insight is that a keypoint-based target specification is simultaneously interpretable by VLMs and can be efficiently translated into cost functions for model-based planning. Given language instructions and visual observations, KUDA first assigns keypoints to the RGB image and queries the VLM to generate target specifications. These abstract keypoint-based representations are then converted into cost functions, which are optimized using a learned dynamics model to produce robotic trajectories. We evaluate KUDA on a range of manipulation tasks, including free-form language instructions across diverse object categories, multi-object interactions, and deformable or granular objects, demonstrating the effectiveness of our framework. The project page is available at http://kuda-dynamics.github.io.

Summary

AI-Generated Summary

PDF32March 19, 2025