Modelos de Utilidad de Robots: Políticas Generales para la Implementación sin Entrenamiento en Nuevos Entornos
Robot Utility Models: General Policies for Zero-Shot Deployment in New Environments
September 9, 2024
Autores: Haritheja Etukuru, Norihito Naka, Zijin Hu, Seungjae Lee, Julian Mehu, Aaron Edsinger, Chris Paxton, Soumith Chintala, Lerrel Pinto, Nur Muhammad Mahi Shafiullah
cs.AI
Resumen
Los modelos de robots, especialmente aquellos entrenados con grandes cantidades de datos, han mostrado recientemente una gran cantidad de capacidades de manipulación y navegación en el mundo real. Varios esfuerzos independientes han demostrado que, con suficientes datos de entrenamiento en un entorno, las políticas de los robots pueden generalizar variaciones demostradas en ese entorno. Sin embargo, la necesidad de ajustar finamente los modelos de robots para cada nuevo entorno contrasta fuertemente con los modelos en lenguaje o visión que pueden ser desplegados sin ajustes para problemas de mundo abierto. En este trabajo, presentamos Modelos de Utilidad de Robot (RUMs), un marco para entrenar y desplegar políticas de robots sin ajustes que pueden generalizar directamente a nuevos entornos sin ningún ajuste fino. Para crear RUMs de manera eficiente, desarrollamos nuevas herramientas para recolectar rápidamente datos para tareas de manipulación móvil, integrar dichos datos en una política con aprendizaje por imitación multimodal, y desplegar políticas en dispositivos en Hello Robot Stretch, un robot de mercancía económico, con un verificador externo de mLLM para reintentos. Entrenamos cinco de estos modelos de utilidad para abrir puertas de armarios, abrir cajones, recoger servilletas, recoger bolsas de papel y reorientar objetos caídos. Nuestro sistema, en promedio, logra una tasa de éxito del 90% en entornos no vistos y objetos no vistos. Además, los modelos de utilidad también pueden tener éxito en diferentes configuraciones de robots y cámaras sin necesidad de más datos, entrenamiento o ajustes finos. Entre nuestras lecciones principales se encuentran la importancia de los datos de entrenamiento sobre el algoritmo de entrenamiento y la clase de política, orientación sobre la escala de datos, la necesidad de demostraciones diversas pero de alta calidad, y una receta para la introspección de robots y reintentos para mejorar el rendimiento en entornos individuales. Nuestro código, datos, modelos, diseños de hardware, así como nuestros videos de experimentos y despliegue están disponibles de forma abierta y se pueden encontrar en nuestro sitio web del proyecto: https://robotutilitymodels.com
English
Robot models, particularly those trained with large amounts of data, have
recently shown a plethora of real-world manipulation and navigation
capabilities. Several independent efforts have shown that given sufficient
training data in an environment, robot policies can generalize to demonstrated
variations in that environment. However, needing to finetune robot models to
every new environment stands in stark contrast to models in language or vision
that can be deployed zero-shot for open-world problems. In this work, we
present Robot Utility Models (RUMs), a framework for training and deploying
zero-shot robot policies that can directly generalize to new environments
without any finetuning. To create RUMs efficiently, we develop new tools to
quickly collect data for mobile manipulation tasks, integrate such data into a
policy with multi-modal imitation learning, and deploy policies on-device on
Hello Robot Stretch, a cheap commodity robot, with an external mLLM verifier
for retrying. We train five such utility models for opening cabinet doors,
opening drawers, picking up napkins, picking up paper bags, and reorienting
fallen objects. Our system, on average, achieves 90% success rate in unseen,
novel environments interacting with unseen objects. Moreover, the utility
models can also succeed in different robot and camera set-ups with no further
data, training, or fine-tuning. Primary among our lessons are the importance of
training data over training algorithm and policy class, guidance about data
scaling, necessity for diverse yet high-quality demonstrations, and a recipe
for robot introspection and retrying to improve performance on individual
environments. Our code, data, models, hardware designs, as well as our
experiment and deployment videos are open sourced and can be found on our
project website: https://robotutilitymodels.comSummary
AI-Generated Summary