ChatPaper.aiChatPaper

OK-Robot: O que Realmente Importa na Integração de Modelos de Conhecimento Aberto para Robótica

OK-Robot: What Really Matters in Integrating Open-Knowledge Models for Robotics

January 22, 2024
Autores: Peiqi Liu, Yaswanth Orru, Chris Paxton, Nur Muhammad Mahi Shafiullah, Lerrel Pinto
cs.AI

Resumo

Progressos notáveis têm sido alcançados nos últimos anos nas áreas de visão, linguagem e robótica. Atualmente, dispomos de modelos de visão capazes de reconhecer objetos com base em consultas de linguagem, sistemas de navegação que podem controlar efetivamente sistemas móveis e modelos de preensão que conseguem manipular uma ampla variedade de objetos. Apesar desses avanços, as aplicações de robótica de propósito geral ainda estão atrasadas, mesmo que dependam dessas capacidades fundamentais de reconhecimento, navegação e preensão. Neste artigo, adotamos uma abordagem de sistemas-first para desenvolver uma nova estrutura de robótica baseada em Conhecimento Aberto, chamada OK-Robot. Ao combinar Modelos de Visão-Linguagem (VLMs) para detecção de objetos, primitivas de navegação para movimento e primitivas de preensão para manipulação de objetos, o OK-Robot oferece uma solução integrada para operações de pegar e soltar sem exigir qualquer treinamento. Para avaliar seu desempenho, executamos o OK-Robot em 10 ambientes domésticos reais. Os resultados demonstram que o OK-Robot alcança uma taxa de sucesso de 58,5% em tarefas abertas de pegar e soltar, representando um novo estado da arte em Manipulação Móvel de Vocabulário Aberto (OVMM) com quase 1,8x o desempenho de trabalhos anteriores. Em ambientes mais limpos e organizados, o desempenho do OK-Robot aumenta para 82%. No entanto, o insight mais importante obtido com o OK-Robot é o papel crítico dos detalhes sutis ao combinar sistemas de Conhecimento Aberto, como VLMs, com módulos robóticos. Vídeos de nossos experimentos estão disponíveis em nosso site: https://ok-robot.github.io
English
Remarkable progress has been made in recent years in the fields of vision, language, and robotics. We now have vision models capable of recognizing objects based on language queries, navigation systems that can effectively control mobile systems, and grasping models that can handle a wide range of objects. Despite these advancements, general-purpose applications of robotics still lag behind, even though they rely on these fundamental capabilities of recognition, navigation, and grasping. In this paper, we adopt a systems-first approach to develop a new Open Knowledge-based robotics framework called OK-Robot. By combining Vision-Language Models (VLMs) for object detection, navigation primitives for movement, and grasping primitives for object manipulation, OK-Robot offers a integrated solution for pick-and-drop operations without requiring any training. To evaluate its performance, we run OK-Robot in 10 real-world home environments. The results demonstrate that OK-Robot achieves a 58.5% success rate in open-ended pick-and-drop tasks, representing a new state-of-the-art in Open Vocabulary Mobile Manipulation (OVMM) with nearly 1.8x the performance of prior work. On cleaner, uncluttered environments, OK-Robot's performance increases to 82%. However, the most important insight gained from OK-Robot is the critical role of nuanced details when combining Open Knowledge systems like VLMs with robotic modules. Videos of our experiments are available on our website: https://ok-robot.github.io
PDF102December 15, 2024