KUDA: Ключевые точки для объединения обучения динамике и визуальных подсказок в задачах манипуляции роботов с открытым словарём
KUDA: Keypoints to Unify Dynamics Learning and Visual Prompting for Open-Vocabulary Robotic Manipulation
March 13, 2025
Авторы: Zixian Liu, Mingtong Zhang, Yunzhu Li
cs.AI
Аннотация
С быстрым развитием крупных языковых моделей (LLM) и визуально-языковых моделей (VLM) был достигнут значительный прогресс в создании систем манипуляции с открытым словарным запасом для роботов. Однако многие существующие подходы упускают из виду важность динамики объектов, что ограничивает их применимость к более сложным, динамическим задачам. В данной работе мы представляем KUDA — систему манипуляции с открытым словарным запасом, которая интегрирует обучение динамике и визуальные подсказки через ключевые точки, используя как VLM, так и обучаемые нейронные модели динамики. Наше ключевое наблюдение заключается в том, что спецификация цели на основе ключевых точек одновременно интерпретируема VLM и может быть эффективно преобразована в функции стоимости для планирования на основе моделей. Получив языковые инструкции и визуальные наблюдения, KUDA сначала назначает ключевые точки RGB-изображению и запрашивает VLM для генерации спецификаций цели. Эти абстрактные представления на основе ключевых точек затем преобразуются в функции стоимости, которые оптимизируются с использованием обученной модели динамики для создания траекторий робота. Мы оцениваем KUDA на ряде задач манипуляции, включая свободные языковые инструкции для различных категорий объектов, взаимодействия с несколькими объектами, а также деформируемые или гранулированные объекты, демонстрируя эффективность нашего подхода. Страница проекта доступна по адресу http://kuda-dynamics.github.io.
English
With the rapid advancement of large language models (LLMs) and
vision-language models (VLMs), significant progress has been made in developing
open-vocabulary robotic manipulation systems. However, many existing approaches
overlook the importance of object dynamics, limiting their applicability to
more complex, dynamic tasks. In this work, we introduce KUDA, an
open-vocabulary manipulation system that integrates dynamics learning and
visual prompting through keypoints, leveraging both VLMs and learning-based
neural dynamics models. Our key insight is that a keypoint-based target
specification is simultaneously interpretable by VLMs and can be efficiently
translated into cost functions for model-based planning. Given language
instructions and visual observations, KUDA first assigns keypoints to the RGB
image and queries the VLM to generate target specifications. These abstract
keypoint-based representations are then converted into cost functions, which
are optimized using a learned dynamics model to produce robotic trajectories.
We evaluate KUDA on a range of manipulation tasks, including free-form language
instructions across diverse object categories, multi-object interactions, and
deformable or granular objects, demonstrating the effectiveness of our
framework. The project page is available at http://kuda-dynamics.github.io.Summary
AI-Generated Summary