CANVAS: Gemeinschaftsbewusstes Navigationssystem für intuitive Mensch-Roboter-Interaktion
CANVAS: Commonsense-Aware Navigation System for Intuitive Human-Robot Interaction
October 2, 2024
Autoren: Suhwan Choi, Yongjun Cho, Minchan Kim, Jaeyoon Jung, Myunchul Joe, Yubeen Park, Minseo Kim, Sungwoong Kim, Sungjae Lee, Hwiseong Park, Jiwan Chung, Youngjae Yu
cs.AI
Zusammenfassung
Die Navigation von Robotern in der realen Welt umfasst mehr als nur das Erreichen eines Ziels; es erfordert die Optimierung von Bewegungen unter Berücksichtigung szenariospezifischer Ziele. Eine intuitive Möglichkeit für Menschen, diese Ziele auszudrücken, erfolgt durch abstrakte Hinweise wie verbale Befehle oder grobe Skizzen. Eine solche menschliche Anleitung kann Details vermissen lassen oder rauschig sein. Dennoch erwarten wir, dass Roboter wie beabsichtigt navigieren. Damit Roboter diese abstrakten Anweisungen im Einklang mit menschlichen Erwartungen interpretieren und ausführen können, müssen sie ein gemeinsames Verständnis grundlegender Navigationskonzepte mit Menschen teilen. Zu diesem Zweck stellen wir CANVAS vor, ein neuartiges Framework, das visuelle und sprachliche Anweisungen für navigationsbewusstes Handeln kombiniert. Sein Erfolg wird durch Imitationslernen vorangetrieben, das es dem Roboter ermöglicht, aus dem Navigationsverhalten von Menschen zu lernen. Wir präsentieren COMMAND, einen umfassenden Datensatz mit von Menschen annotierten Navigationsergebnissen, der sich über 48 Stunden und 219 km erstreckt und darauf abzielt, navigationsbewusste Systeme in simulierten Umgebungen zu trainieren. Unsere Experimente zeigen, dass CANVAS das leistungsstarke regelbasierte System ROS NavStack in allen Umgebungen übertrifft und eine überlegene Leistung bei rauschigen Anweisungen zeigt. Bemerkenswert ist, dass CANVAS in der Obstgarten-Umgebung, in der ROS NavStack eine Gesamterfolgsquote von 0% aufweist, eine Gesamterfolgsquote von 67% erreicht. CANVAS stimmt auch eng mit menschlichen Demonstrationen und alltäglichen Einschränkungen überein, selbst in unbekannten Umgebungen. Darüber hinaus zeigt die Realweltbereitstellung von CANVAS eine beeindruckende Sim2Real-Übertragung mit einer Gesamterfolgsquote von 69%, was das Potenzial des Lernens aus menschlichen Demonstrationen in simulierten Umgebungen für realweltliche Anwendungen unterstreicht.
English
Real-life robot navigation involves more than just reaching a destination; it
requires optimizing movements while addressing scenario-specific goals. An
intuitive way for humans to express these goals is through abstract cues like
verbal commands or rough sketches. Such human guidance may lack details or be
noisy. Nonetheless, we expect robots to navigate as intended. For robots to
interpret and execute these abstract instructions in line with human
expectations, they must share a common understanding of basic navigation
concepts with humans. To this end, we introduce CANVAS, a novel framework that
combines visual and linguistic instructions for commonsense-aware navigation.
Its success is driven by imitation learning, enabling the robot to learn from
human navigation behavior. We present COMMAND, a comprehensive dataset with
human-annotated navigation results, spanning over 48 hours and 219 km, designed
to train commonsense-aware navigation systems in simulated environments. Our
experiments show that CANVAS outperforms the strong rule-based system ROS
NavStack across all environments, demonstrating superior performance with noisy
instructions. Notably, in the orchard environment, where ROS NavStack records a
0% total success rate, CANVAS achieves a total success rate of 67%. CANVAS also
closely aligns with human demonstrations and commonsense constraints, even in
unseen environments. Furthermore, real-world deployment of CANVAS showcases
impressive Sim2Real transfer with a total success rate of 69%, highlighting the
potential of learning from human demonstrations in simulated environments for
real-world applications.Summary
AI-Generated Summary