CANVAS: Sistema di Navigazione Consapevole del Senso Comune per un'Interazione Uomo-Robot Intuitiva
CANVAS: Commonsense-Aware Navigation System for Intuitive Human-Robot Interaction
October 2, 2024
Autori: Suhwan Choi, Yongjun Cho, Minchan Kim, Jaeyoon Jung, Myunchul Joe, Yubeen Park, Minseo Kim, Sungwoong Kim, Sungjae Lee, Hwiseong Park, Jiwan Chung, Youngjae Yu
cs.AI
Abstract
La navigazione dei robot nella vita reale implica molto più che raggiungere una destinazione; richiede di ottimizzare i movimenti affrontando obiettivi specifici dello scenario. Un modo intuitivo per gli esseri umani esprimere questi obiettivi è attraverso segnali astratti come comandi verbali o bozzetti approssimativi. Tale guida umana potrebbe mancare di dettagli o essere rumorosa. Tuttavia, ci aspettiamo che i robot navighino come previsto. Affinché i robot interpretino ed eseguano queste istruzioni astratte in linea con le aspettative umane, devono condividere una comprensione comune dei concetti di base della navigazione con gli esseri umani. A questo scopo, presentiamo CANVAS, un nuovo framework che combina istruzioni visive e linguistiche per la navigazione consapevole del senso comune. Il suo successo è guidato dall'apprendimento per imitazione, consentendo al robot di apprendere dal comportamento di navigazione umano. Presentiamo COMMAND, un dataset esaustivo con risultati di navigazione annotati dagli umani, che copre oltre 48 ore e 219 km, progettato per addestrare sistemi di navigazione consapevoli del senso comune in ambienti simulati. I nostri esperimenti mostrano che CANVAS supera il forte sistema basato su regole ROS NavStack in tutti gli ambienti, dimostrando prestazioni superiori con istruzioni rumorose. In particolare, nell'ambiente dell'orto, dove ROS NavStack registra un tasso di successo totale del 0%, CANVAS raggiunge un tasso di successo totale del 67%. CANVAS si allinea anche strettamente con le dimostrazioni umane e i vincoli del senso comune, anche in ambienti non visti in precedenza. Inoltre, il dispiegamento del mondo reale di CANVAS mostra un impressionante trasferimento Sim2Real con un tasso di successo totale del 69%, evidenziando il potenziale dell'apprendimento dalle dimostrazioni umane in ambienti simulati per applicazioni del mondo reale.
English
Real-life robot navigation involves more than just reaching a destination; it
requires optimizing movements while addressing scenario-specific goals. An
intuitive way for humans to express these goals is through abstract cues like
verbal commands or rough sketches. Such human guidance may lack details or be
noisy. Nonetheless, we expect robots to navigate as intended. For robots to
interpret and execute these abstract instructions in line with human
expectations, they must share a common understanding of basic navigation
concepts with humans. To this end, we introduce CANVAS, a novel framework that
combines visual and linguistic instructions for commonsense-aware navigation.
Its success is driven by imitation learning, enabling the robot to learn from
human navigation behavior. We present COMMAND, a comprehensive dataset with
human-annotated navigation results, spanning over 48 hours and 219 km, designed
to train commonsense-aware navigation systems in simulated environments. Our
experiments show that CANVAS outperforms the strong rule-based system ROS
NavStack across all environments, demonstrating superior performance with noisy
instructions. Notably, in the orchard environment, where ROS NavStack records a
0% total success rate, CANVAS achieves a total success rate of 67%. CANVAS also
closely aligns with human demonstrations and commonsense constraints, even in
unseen environments. Furthermore, real-world deployment of CANVAS showcases
impressive Sim2Real transfer with a total success rate of 69%, highlighting the
potential of learning from human demonstrations in simulated environments for
real-world applications.