КАНВА: Навигационная система с общими знаниями для интуитивного взаимодействия человека и робота

Аннотация

Навигация роботов в реальной жизни включает в себя не только достижение пункта назначения; это требует оптимизации движений при учете конкретных сценариев. Интуитивным способом для людей выражать эти цели является использование абстрактных подсказок, таких как устные команды или грубые эскизы. Такое человеческое руководство может быть недостаточно подробным или шумным. Тем не менее, мы ожидаем, что роботы будут навигировать в соответствии с заданными целями. Для того чтобы роботы могли интерпретировать и выполнять эти абстрактные инструкции в соответствии с ожиданиями человека, им необходимо разделять общее понимание основных концепций навигации с людьми. В этой связи мы представляем CANVAS, новую концепцию, которая объединяет визуальные и языковые инструкции для навигации с общим пониманием. Его успех обусловлен обучением по имитации, позволяющим роботу учиться на основе поведения человека в навигации. Мы представляем COMMAND, обширный набор данных с результатами навигации, аннотированными людьми, охватывающий более 48 часов и 219 км, разработанный для обучения систем навигации с общим пониманием в симулированных средах. Наши эксперименты показывают, что CANVAS превосходит мощную систему на основе правил ROS NavStack во всех средах, демонстрируя превосходную производительность при шумных инструкциях. Заметно, что в среде сада, где ROS NavStack имеет общий успех в 0%, CANVAS достигает общего успеха в 67%. CANVAS также тесно соответствует демонстрациям человека и общим ограничениям, даже в невидимых средах. Более того, реальное применение CANVAS демонстрирует впечатляющий перенос из симулированных сред в реальные с общим успехом в 69%, подчеркивая потенциал обучения на примерах человека в симулированных средах для реальных приложений.

English

Real-life robot navigation involves more than just reaching a destination; it requires optimizing movements while addressing scenario-specific goals. An intuitive way for humans to express these goals is through abstract cues like verbal commands or rough sketches. Such human guidance may lack details or be noisy. Nonetheless, we expect robots to navigate as intended. For robots to interpret and execute these abstract instructions in line with human expectations, they must share a common understanding of basic navigation concepts with humans. To this end, we introduce CANVAS, a novel framework that combines visual and linguistic instructions for commonsense-aware navigation. Its success is driven by imitation learning, enabling the robot to learn from human navigation behavior. We present COMMAND, a comprehensive dataset with human-annotated navigation results, spanning over 48 hours and 219 km, designed to train commonsense-aware navigation systems in simulated environments. Our experiments show that CANVAS outperforms the strong rule-based system ROS NavStack across all environments, demonstrating superior performance with noisy instructions. Notably, in the orchard environment, where ROS NavStack records a 0% total success rate, CANVAS achieves a total success rate of 67%. CANVAS also closely aligns with human demonstrations and commonsense constraints, even in unseen environments. Furthermore, real-world deployment of CANVAS showcases impressive Sim2Real transfer with a total success rate of 69%, highlighting the potential of learning from human demonstrations in simulated environments for real-world applications.

КАНВА: Навигационная система с общими знаниями для интуитивного взаимодействия человека и робота

CANVAS: Commonsense-Aware Navigation System for Intuitive Human-Robot Interaction

Аннотация

Support