KUDA: Pontos-chave para Unificar o Aprendizado de Dinâmica e o Prompting Visual para Manipulação Robótica de Vocabulário Aberto

Resumo

Com o rápido avanço dos modelos de linguagem de grande escala (LLMs) e modelos visão-linguagem (VLMs), progressos significativos foram alcançados no desenvolvimento de sistemas de manipulação robótica de vocabulário aberto. No entanto, muitas abordagens existentes negligenciam a importância da dinâmica dos objetos, limitando sua aplicabilidade a tarefas mais complexas e dinâmicas. Neste trabalho, apresentamos o KUDA, um sistema de manipulação de vocabulário aberto que integra o aprendizado de dinâmica e o prompting visual por meio de pontos-chave, aproveitando tanto VLMs quanto modelos neurais de dinâmica baseados em aprendizado. Nossa principal percepção é que uma especificação de destino baseada em pontos-chave é simultaneamente interpretável por VLMs e pode ser eficientemente traduzida em funções de custo para planejamento baseado em modelos. Dadas instruções em linguagem natural e observações visuais, o KUDA primeiro atribui pontos-chave à imagem RGB e consulta o VLM para gerar especificações de destino. Essas representações abstratas baseadas em pontos-chave são então convertidas em funções de custo, que são otimizadas usando um modelo de dinâmica aprendido para produzir trajetórias robóticas. Avaliamos o KUDA em uma variedade de tarefas de manipulação, incluindo instruções de linguagem livre em diversas categorias de objetos, interações com múltiplos objetos e objetos deformáveis ou granulares, demonstrando a eficácia de nossa abordagem. A página do projeto está disponível em http://kuda-dynamics.github.io.

English

With the rapid advancement of large language models (LLMs) and vision-language models (VLMs), significant progress has been made in developing open-vocabulary robotic manipulation systems. However, many existing approaches overlook the importance of object dynamics, limiting their applicability to more complex, dynamic tasks. In this work, we introduce KUDA, an open-vocabulary manipulation system that integrates dynamics learning and visual prompting through keypoints, leveraging both VLMs and learning-based neural dynamics models. Our key insight is that a keypoint-based target specification is simultaneously interpretable by VLMs and can be efficiently translated into cost functions for model-based planning. Given language instructions and visual observations, KUDA first assigns keypoints to the RGB image and queries the VLM to generate target specifications. These abstract keypoint-based representations are then converted into cost functions, which are optimized using a learned dynamics model to produce robotic trajectories. We evaluate KUDA on a range of manipulation tasks, including free-form language instructions across diverse object categories, multi-object interactions, and deformable or granular objects, demonstrating the effectiveness of our framework. The project page is available at http://kuda-dynamics.github.io.

KUDA: Pontos-chave para Unificar o Aprendizado de Dinâmica e o Prompting Visual para Manipulação Robótica de Vocabulário Aberto

KUDA: Keypoints to Unify Dynamics Learning and Visual Prompting for Open-Vocabulary Robotic Manipulation

Resumo

Support