CANVAS: Sistema de Navegação Consciente do Senso Comum para Interação Intuitiva entre Humanos e Robôs

Resumo

A navegação de robôs na vida real envolve mais do que simplesmente alcançar um destino; requer a otimização de movimentos ao lidar com objetivos específicos do cenário. Uma maneira intuitiva para os humanos expressarem esses objetivos é por meio de pistas abstratas como comandos verbais ou esboços aproximados. Essa orientação humana pode carecer de detalhes ou ser ruidosa. No entanto, esperamos que os robôs naveguem conforme o planejado. Para os robôs interpretarem e executarem essas instruções abstratas de acordo com as expectativas humanas, eles devem compartilhar um entendimento comum de conceitos básicos de navegação com os humanos. Com esse propósito, apresentamos CANVAS, um novo framework que combina instruções visuais e linguísticas para navegação com senso comum. Seu sucesso é impulsionado pelo aprendizado por imitação, permitindo que o robô aprenda o comportamento de navegação humano. Apresentamos COMMAND, um conjunto de dados abrangente com resultados de navegação anotados por humanos, abrangendo mais de 48 horas e 219 km, projetado para treinar sistemas de navegação com senso comum em ambientes simulados. Nossos experimentos mostram que o CANVAS supera o forte sistema baseado em regras ROS NavStack em todos os ambientes, demonstrando desempenho superior com instruções ruidosas. Notavelmente, no ambiente de pomar, onde o ROS NavStack registra uma taxa de sucesso total de 0%, o CANVAS alcança uma taxa de sucesso total de 67%. O CANVAS também se alinha de perto com demonstrações humanas e restrições de senso comum, mesmo em ambientes não vistos anteriormente. Além disso, a implementação do CANVAS no mundo real demonstra uma impressionante transferência Sim2Real com uma taxa de sucesso total de 69%, destacando o potencial de aprendizado a partir de demonstrações humanas em ambientes simulados para aplicações do mundo real.

English

Real-life robot navigation involves more than just reaching a destination; it requires optimizing movements while addressing scenario-specific goals. An intuitive way for humans to express these goals is through abstract cues like verbal commands or rough sketches. Such human guidance may lack details or be noisy. Nonetheless, we expect robots to navigate as intended. For robots to interpret and execute these abstract instructions in line with human expectations, they must share a common understanding of basic navigation concepts with humans. To this end, we introduce CANVAS, a novel framework that combines visual and linguistic instructions for commonsense-aware navigation. Its success is driven by imitation learning, enabling the robot to learn from human navigation behavior. We present COMMAND, a comprehensive dataset with human-annotated navigation results, spanning over 48 hours and 219 km, designed to train commonsense-aware navigation systems in simulated environments. Our experiments show that CANVAS outperforms the strong rule-based system ROS NavStack across all environments, demonstrating superior performance with noisy instructions. Notably, in the orchard environment, where ROS NavStack records a 0% total success rate, CANVAS achieves a total success rate of 67%. CANVAS also closely aligns with human demonstrations and commonsense constraints, even in unseen environments. Furthermore, real-world deployment of CANVAS showcases impressive Sim2Real transfer with a total success rate of 69%, highlighting the potential of learning from human demonstrations in simulated environments for real-world applications.

CANVAS: Sistema de Navegação Consciente do Senso Comum para Interação Intuitiva entre Humanos e Robôs

CANVAS: Commonsense-Aware Navigation System for Intuitive Human-Robot Interaction

Resumo

Support