DoggyBot Servicial: Recuperación de Objetos en un Mundo Abierto utilizando Robots Cuadrúpedos y Modelos de Visión-Lenguaje
Helpful DoggyBot: Open-World Object Fetching using Legged Robots and Vision-Language Models
September 30, 2024
Autores: Qi Wu, Zipeng Fu, Xuxin Cheng, Xiaolong Wang, Chelsea Finn
cs.AI
Resumen
Los métodos basados en aprendizaje han logrado un rendimiento sólido para la locomoción cuadrúpeda. Sin embargo, varias dificultades impiden que los cuadrúpedos aprendan habilidades útiles en interiores que requieren interacción con entornos y humanos: falta de efectores finales para manipulación, comprensión semántica limitada utilizando solo datos de simulación, y baja capacidad de atravesar y alcanzar en entornos interiores. Presentamos un sistema para la manipulación móvil cuadrúpeda en entornos interiores. Utiliza un gripper montado en la parte delantera para la manipulación de objetos, un controlador de bajo nivel entrenado en simulación utilizando profundidad egocéntrica para habilidades ágiles como escalar e inclinación de cuerpo completo, y modelos de visión-lenguaje pre-entrenados (VLMs) con una cámara de ojo de pez en tercera persona y una cámara RGB egocéntrica para comprensión semántica y generación de comandos. Evaluamos nuestro sistema en dos entornos no vistos sin ninguna recolección de datos o entrenamiento del mundo real. Nuestro sistema puede generalizar de forma cero-shot a estos entornos y completar tareas, como seguir los comandos del usuario para traer un juguete colocado al azar después de escalar una cama tamaño queen, con una tasa de éxito del 60%. Sitio web del proyecto: https://helpful-doggybot.github.io/
English
Learning-based methods have achieved strong performance for quadrupedal
locomotion. However, several challenges prevent quadrupeds from learning
helpful indoor skills that require interaction with environments and humans:
lack of end-effectors for manipulation, limited semantic understanding using
only simulation data, and low traversability and reachability in indoor
environments. We present a system for quadrupedal mobile manipulation in indoor
environments. It uses a front-mounted gripper for object manipulation, a
low-level controller trained in simulation using egocentric depth for agile
skills like climbing and whole-body tilting, and pre-trained vision-language
models (VLMs) with a third-person fisheye and an egocentric RGB camera for
semantic understanding and command generation. We evaluate our system in two
unseen environments without any real-world data collection or training. Our
system can zero-shot generalize to these environments and complete tasks, like
following user's commands to fetch a randomly placed stuff toy after climbing
over a queen-sized bed, with a 60% success rate. Project website:
https://helpful-doggybot.github.io/Summary
AI-Generated Summary