Modelos de Utilidade de Robô: Políticas Gerais para Implantação sem Treinamento em Novos Ambientes

Resumo

Modelos de robôs, especialmente aqueles treinados com grandes quantidades de dados, têm demonstrado recentemente uma infinidade de capacidades de manipulação e navegação no mundo real. Vários esforços independentes mostraram que, com dados de treinamento suficientes em um ambiente, as políticas de robôs podem generalizar variações demonstradas nesse ambiente. No entanto, a necessidade de ajustar finamente os modelos de robô para cada novo ambiente contrasta fortemente com modelos em linguagem ou visão que podem ser implantados sem ajustes para problemas de mundo aberto. Neste trabalho, apresentamos Modelos de Utilidade de Robô (RUMs), um framework para treinar e implantar políticas de robô sem ajustes que podem generalizar diretamente para novos ambientes sem nenhum ajuste fino. Para criar os RUMs de forma eficiente, desenvolvemos novas ferramentas para coletar rapidamente dados para tarefas de manipulação móvel, integrar esses dados em uma política com aprendizado por imitação multimodal e implantar políticas em dispositivos no Hello Robot Stretch, um robô de mercadorias barato, com um verificador mLLM externo para tentativas adicionais. Treinamos cinco desses modelos de utilidade para abrir portas de armários, abrir gavetas, pegar guardanapos, pegar sacolas de papel e reposicionar objetos caídos. Nosso sistema, em média, alcança uma taxa de sucesso de 90% em ambientes não vistos, interagindo com objetos não vistos. Além disso, os modelos de utilidade também podem ter sucesso em diferentes configurações de robôs e câmeras sem a necessidade de mais dados, treinamento ou ajuste fino. Entre nossas principais lições estão a importância dos dados de treinamento sobre o algoritmo de treinamento e a classe de política, orientações sobre escalonamento de dados, necessidade de demonstrações diversas e de alta qualidade, e uma receita para introspecção de robôs e tentativas para melhorar o desempenho em ambientes individuais. Nosso código, dados, modelos, designs de hardware, bem como nossos vídeos de experimento e implantação são de código aberto e podem ser encontrados em nosso site do projeto: https://robotutilitymodels.com

English

Robot models, particularly those trained with large amounts of data, have recently shown a plethora of real-world manipulation and navigation capabilities. Several independent efforts have shown that given sufficient training data in an environment, robot policies can generalize to demonstrated variations in that environment. However, needing to finetune robot models to every new environment stands in stark contrast to models in language or vision that can be deployed zero-shot for open-world problems. In this work, we present Robot Utility Models (RUMs), a framework for training and deploying zero-shot robot policies that can directly generalize to new environments without any finetuning. To create RUMs efficiently, we develop new tools to quickly collect data for mobile manipulation tasks, integrate such data into a policy with multi-modal imitation learning, and deploy policies on-device on Hello Robot Stretch, a cheap commodity robot, with an external mLLM verifier for retrying. We train five such utility models for opening cabinet doors, opening drawers, picking up napkins, picking up paper bags, and reorienting fallen objects. Our system, on average, achieves 90% success rate in unseen, novel environments interacting with unseen objects. Moreover, the utility models can also succeed in different robot and camera set-ups with no further data, training, or fine-tuning. Primary among our lessons are the importance of training data over training algorithm and policy class, guidance about data scaling, necessity for diverse yet high-quality demonstrations, and a recipe for robot introspection and retrying to improve performance on individual environments. Our code, data, models, hardware designs, as well as our experiment and deployment videos are open sourced and can be found on our project website: https://robotutilitymodels.com

Modelos de Utilidade de Robô: Políticas Gerais para Implantação sem Treinamento em Novos Ambientes

Robot Utility Models: General Policies for Zero-Shot Deployment in New Environments

Resumo

Support