KUDA: Ключевые точки для объединения обучения динамике и визуальных подсказок в задачах манипуляции роботов с открытым словарём

Аннотация

С быстрым развитием крупных языковых моделей (LLM) и визуально-языковых моделей (VLM) был достигнут значительный прогресс в создании систем манипуляции с открытым словарным запасом для роботов. Однако многие существующие подходы упускают из виду важность динамики объектов, что ограничивает их применимость к более сложным, динамическим задачам. В данной работе мы представляем KUDA — систему манипуляции с открытым словарным запасом, которая интегрирует обучение динамике и визуальные подсказки через ключевые точки, используя как VLM, так и обучаемые нейронные модели динамики. Наше ключевое наблюдение заключается в том, что спецификация цели на основе ключевых точек одновременно интерпретируема VLM и может быть эффективно преобразована в функции стоимости для планирования на основе моделей. Получив языковые инструкции и визуальные наблюдения, KUDA сначала назначает ключевые точки RGB-изображению и запрашивает VLM для генерации спецификаций цели. Эти абстрактные представления на основе ключевых точек затем преобразуются в функции стоимости, которые оптимизируются с использованием обученной модели динамики для создания траекторий робота. Мы оцениваем KUDA на ряде задач манипуляции, включая свободные языковые инструкции для различных категорий объектов, взаимодействия с несколькими объектами, а также деформируемые или гранулированные объекты, демонстрируя эффективность нашего подхода. Страница проекта доступна по адресу http://kuda-dynamics.github.io.

English

With the rapid advancement of large language models (LLMs) and vision-language models (VLMs), significant progress has been made in developing open-vocabulary robotic manipulation systems. However, many existing approaches overlook the importance of object dynamics, limiting their applicability to more complex, dynamic tasks. In this work, we introduce KUDA, an open-vocabulary manipulation system that integrates dynamics learning and visual prompting through keypoints, leveraging both VLMs and learning-based neural dynamics models. Our key insight is that a keypoint-based target specification is simultaneously interpretable by VLMs and can be efficiently translated into cost functions for model-based planning. Given language instructions and visual observations, KUDA first assigns keypoints to the RGB image and queries the VLM to generate target specifications. These abstract keypoint-based representations are then converted into cost functions, which are optimized using a learned dynamics model to produce robotic trajectories. We evaluate KUDA on a range of manipulation tasks, including free-form language instructions across diverse object categories, multi-object interactions, and deformable or granular objects, demonstrating the effectiveness of our framework. The project page is available at http://kuda-dynamics.github.io.

KUDA: Ключевые точки для объединения обучения динамике и визуальных подсказок в задачах манипуляции роботов с открытым словарём

KUDA: Keypoints to Unify Dynamics Learning and Visual Prompting for Open-Vocabulary Robotic Manipulation

Аннотация

Support