КАНВА: Навигационная система с общими знаниями для интуитивного взаимодействия человека и робота
CANVAS: Commonsense-Aware Navigation System for Intuitive Human-Robot Interaction
October 2, 2024
Авторы: Suhwan Choi, Yongjun Cho, Minchan Kim, Jaeyoon Jung, Myunchul Joe, Yubeen Park, Minseo Kim, Sungwoong Kim, Sungjae Lee, Hwiseong Park, Jiwan Chung, Youngjae Yu
cs.AI
Аннотация
Навигация роботов в реальной жизни включает в себя не только достижение пункта назначения; это требует оптимизации движений при учете конкретных сценариев. Интуитивным способом для людей выражать эти цели является использование абстрактных подсказок, таких как устные команды или грубые эскизы. Такое человеческое руководство может быть недостаточно подробным или шумным. Тем не менее, мы ожидаем, что роботы будут навигировать в соответствии с заданными целями. Для того чтобы роботы могли интерпретировать и выполнять эти абстрактные инструкции в соответствии с ожиданиями человека, им необходимо разделять общее понимание основных концепций навигации с людьми. В этой связи мы представляем CANVAS, новую концепцию, которая объединяет визуальные и языковые инструкции для навигации с общим пониманием. Его успех обусловлен обучением по имитации, позволяющим роботу учиться на основе поведения человека в навигации. Мы представляем COMMAND, обширный набор данных с результатами навигации, аннотированными людьми, охватывающий более 48 часов и 219 км, разработанный для обучения систем навигации с общим пониманием в симулированных средах. Наши эксперименты показывают, что CANVAS превосходит мощную систему на основе правил ROS NavStack во всех средах, демонстрируя превосходную производительность при шумных инструкциях. Заметно, что в среде сада, где ROS NavStack имеет общий успех в 0%, CANVAS достигает общего успеха в 67%. CANVAS также тесно соответствует демонстрациям человека и общим ограничениям, даже в невидимых средах. Более того, реальное применение CANVAS демонстрирует впечатляющий перенос из симулированных сред в реальные с общим успехом в 69%, подчеркивая потенциал обучения на примерах человека в симулированных средах для реальных приложений.
English
Real-life robot navigation involves more than just reaching a destination; it
requires optimizing movements while addressing scenario-specific goals. An
intuitive way for humans to express these goals is through abstract cues like
verbal commands or rough sketches. Such human guidance may lack details or be
noisy. Nonetheless, we expect robots to navigate as intended. For robots to
interpret and execute these abstract instructions in line with human
expectations, they must share a common understanding of basic navigation
concepts with humans. To this end, we introduce CANVAS, a novel framework that
combines visual and linguistic instructions for commonsense-aware navigation.
Its success is driven by imitation learning, enabling the robot to learn from
human navigation behavior. We present COMMAND, a comprehensive dataset with
human-annotated navigation results, spanning over 48 hours and 219 km, designed
to train commonsense-aware navigation systems in simulated environments. Our
experiments show that CANVAS outperforms the strong rule-based system ROS
NavStack across all environments, demonstrating superior performance with noisy
instructions. Notably, in the orchard environment, where ROS NavStack records a
0% total success rate, CANVAS achieves a total success rate of 67%. CANVAS also
closely aligns with human demonstrations and commonsense constraints, even in
unseen environments. Furthermore, real-world deployment of CANVAS showcases
impressive Sim2Real transfer with a total success rate of 69%, highlighting the
potential of learning from human demonstrations in simulated environments for
real-world applications.Summary
AI-Generated Summary