CANVAS: Sistema di Navigazione Consapevole del Senso Comune per un'Interazione Uomo-Robot Intuitiva

Abstract

La navigazione dei robot nella vita reale implica molto più che raggiungere una destinazione; richiede di ottimizzare i movimenti affrontando obiettivi specifici dello scenario. Un modo intuitivo per gli esseri umani esprimere questi obiettivi è attraverso segnali astratti come comandi verbali o bozzetti approssimativi. Tale guida umana potrebbe mancare di dettagli o essere rumorosa. Tuttavia, ci aspettiamo che i robot navighino come previsto. Affinché i robot interpretino ed eseguano queste istruzioni astratte in linea con le aspettative umane, devono condividere una comprensione comune dei concetti di base della navigazione con gli esseri umani. A questo scopo, presentiamo CANVAS, un nuovo framework che combina istruzioni visive e linguistiche per la navigazione consapevole del senso comune. Il suo successo è guidato dall'apprendimento per imitazione, consentendo al robot di apprendere dal comportamento di navigazione umano. Presentiamo COMMAND, un dataset esaustivo con risultati di navigazione annotati dagli umani, che copre oltre 48 ore e 219 km, progettato per addestrare sistemi di navigazione consapevoli del senso comune in ambienti simulati. I nostri esperimenti mostrano che CANVAS supera il forte sistema basato su regole ROS NavStack in tutti gli ambienti, dimostrando prestazioni superiori con istruzioni rumorose. In particolare, nell'ambiente dell'orto, dove ROS NavStack registra un tasso di successo totale del 0%, CANVAS raggiunge un tasso di successo totale del 67%. CANVAS si allinea anche strettamente con le dimostrazioni umane e i vincoli del senso comune, anche in ambienti non visti in precedenza. Inoltre, il dispiegamento del mondo reale di CANVAS mostra un impressionante trasferimento Sim2Real con un tasso di successo totale del 69%, evidenziando il potenziale dell'apprendimento dalle dimostrazioni umane in ambienti simulati per applicazioni del mondo reale.

English

Real-life robot navigation involves more than just reaching a destination; it requires optimizing movements while addressing scenario-specific goals. An intuitive way for humans to express these goals is through abstract cues like verbal commands or rough sketches. Such human guidance may lack details or be noisy. Nonetheless, we expect robots to navigate as intended. For robots to interpret and execute these abstract instructions in line with human expectations, they must share a common understanding of basic navigation concepts with humans. To this end, we introduce CANVAS, a novel framework that combines visual and linguistic instructions for commonsense-aware navigation. Its success is driven by imitation learning, enabling the robot to learn from human navigation behavior. We present COMMAND, a comprehensive dataset with human-annotated navigation results, spanning over 48 hours and 219 km, designed to train commonsense-aware navigation systems in simulated environments. Our experiments show that CANVAS outperforms the strong rule-based system ROS NavStack across all environments, demonstrating superior performance with noisy instructions. Notably, in the orchard environment, where ROS NavStack records a 0% total success rate, CANVAS achieves a total success rate of 67%. CANVAS also closely aligns with human demonstrations and commonsense constraints, even in unseen environments. Furthermore, real-world deployment of CANVAS showcases impressive Sim2Real transfer with a total success rate of 69%, highlighting the potential of learning from human demonstrations in simulated environments for real-world applications.

CANVAS: Sistema di Navigazione Consapevole del Senso Comune per un'Interazione Uomo-Robot Intuitiva

CANVAS: Commonsense-Aware Navigation System for Intuitive Human-Robot Interaction

Abstract

Support