KUDA: Pontos-chave para Unificar o Aprendizado de Dinâmica e o Prompting Visual para Manipulação Robótica de Vocabulário Aberto
KUDA: Keypoints to Unify Dynamics Learning and Visual Prompting for Open-Vocabulary Robotic Manipulation
March 13, 2025
Autores: Zixian Liu, Mingtong Zhang, Yunzhu Li
cs.AI
Resumo
Com o rápido avanço dos modelos de linguagem de grande escala (LLMs) e modelos visão-linguagem (VLMs), progressos significativos foram alcançados no desenvolvimento de sistemas de manipulação robótica de vocabulário aberto. No entanto, muitas abordagens existentes negligenciam a importância da dinâmica dos objetos, limitando sua aplicabilidade a tarefas mais complexas e dinâmicas. Neste trabalho, apresentamos o KUDA, um sistema de manipulação de vocabulário aberto que integra o aprendizado de dinâmica e o prompting visual por meio de pontos-chave, aproveitando tanto VLMs quanto modelos neurais de dinâmica baseados em aprendizado. Nossa principal percepção é que uma especificação de destino baseada em pontos-chave é simultaneamente interpretável por VLMs e pode ser eficientemente traduzida em funções de custo para planejamento baseado em modelos. Dadas instruções em linguagem natural e observações visuais, o KUDA primeiro atribui pontos-chave à imagem RGB e consulta o VLM para gerar especificações de destino. Essas representações abstratas baseadas em pontos-chave são então convertidas em funções de custo, que são otimizadas usando um modelo de dinâmica aprendido para produzir trajetórias robóticas. Avaliamos o KUDA em uma variedade de tarefas de manipulação, incluindo instruções de linguagem livre em diversas categorias de objetos, interações com múltiplos objetos e objetos deformáveis ou granulares, demonstrando a eficácia de nossa abordagem. A página do projeto está disponível em http://kuda-dynamics.github.io.
English
With the rapid advancement of large language models (LLMs) and
vision-language models (VLMs), significant progress has been made in developing
open-vocabulary robotic manipulation systems. However, many existing approaches
overlook the importance of object dynamics, limiting their applicability to
more complex, dynamic tasks. In this work, we introduce KUDA, an
open-vocabulary manipulation system that integrates dynamics learning and
visual prompting through keypoints, leveraging both VLMs and learning-based
neural dynamics models. Our key insight is that a keypoint-based target
specification is simultaneously interpretable by VLMs and can be efficiently
translated into cost functions for model-based planning. Given language
instructions and visual observations, KUDA first assigns keypoints to the RGB
image and queries the VLM to generate target specifications. These abstract
keypoint-based representations are then converted into cost functions, which
are optimized using a learned dynamics model to produce robotic trajectories.
We evaluate KUDA on a range of manipulation tasks, including free-form language
instructions across diverse object categories, multi-object interactions, and
deformable or granular objects, demonstrating the effectiveness of our
framework. The project page is available at http://kuda-dynamics.github.io.Summary
AI-Generated Summary