CãozinhoBot Auxiliar: Busca de Objetos em Ambientes Abertos usando Robôs com Pernas e Modelos de Visão-Linguagem
Helpful DoggyBot: Open-World Object Fetching using Legged Robots and Vision-Language Models
September 30, 2024
Autores: Qi Wu, Zipeng Fu, Xuxin Cheng, Xiaolong Wang, Chelsea Finn
cs.AI
Resumo
Métodos baseados em aprendizado têm alcançado alto desempenho para locomoção quadrúpede. No entanto, vários desafios impedem que quadrúpedes aprendam habilidades úteis em ambientes internos que requerem interação com ambientes e humanos: falta de efetuadores finais para manipulação, entendimento semântico limitado usando apenas dados de simulação, e baixa capacidade de travessia e alcance em ambientes internos. Apresentamos um sistema para manipulação móvel quadrúpede em ambientes internos. Ele utiliza um agarrador montado na frente para manipulação de objetos, um controlador de baixo nível treinado em simulação usando profundidade egocêntrica para habilidades ágeis como escalada e inclinação de corpo inteiro, e modelos de visão-linguagem pré-treinados (VLMs) com uma câmera de terceira pessoa olho de peixe e uma câmera RGB egocêntrica para entendimento semântico e geração de comandos. Avaliamos nosso sistema em dois ambientes não vistos sem coleta ou treinamento de dados do mundo real. Nosso sistema pode generalizar de forma zero-shot para esses ambientes e completar tarefas, como seguir comandos do usuário para buscar um brinquedo aleatoriamente colocado após escalar uma cama tamanho queen, com uma taxa de sucesso de 60%. Website do projeto: https://helpful-doggybot.github.io/
English
Learning-based methods have achieved strong performance for quadrupedal
locomotion. However, several challenges prevent quadrupeds from learning
helpful indoor skills that require interaction with environments and humans:
lack of end-effectors for manipulation, limited semantic understanding using
only simulation data, and low traversability and reachability in indoor
environments. We present a system for quadrupedal mobile manipulation in indoor
environments. It uses a front-mounted gripper for object manipulation, a
low-level controller trained in simulation using egocentric depth for agile
skills like climbing and whole-body tilting, and pre-trained vision-language
models (VLMs) with a third-person fisheye and an egocentric RGB camera for
semantic understanding and command generation. We evaluate our system in two
unseen environments without any real-world data collection or training. Our
system can zero-shot generalize to these environments and complete tasks, like
following user's commands to fetch a randomly placed stuff toy after climbing
over a queen-sized bed, with a 60% success rate. Project website:
https://helpful-doggybot.github.io/Summary
AI-Generated Summary