Pianificazione dall'Osservazione e dall'Interazione

Abstract

L'apprendimento per osservazione richiede che un agente impari a eseguire un compito facendo riferimento esclusivamente alle osservazioni del compito svolto. Questo lavoro indaga l'equivalente scenario nell'apprendimento robotico del mondo reale, dove non si assume l'accesso a ricompense progettate manualmente né alle azioni del dimostratore. Per affrontare questo scenario vincolato dai dati, questo lavoro presenta un algoritmo di Inverse Reinforcement Learning (IRL) basato sulla pianificazione per la modellazione del mondo a partire dalla sola osservazione e interazione. Esperimenti condotti interamente nel mondo reale dimostrano che questo paradigma è efficace per apprendere compiti di manipolazione basati su immagini da zero in meno di un'ora, senza presupporre conoscenze pregresse, pre-addestramento o dati di alcun tipo oltre alle osservazioni del compito. Inoltre, questo lavoro dimostra che la rappresentazione del mondo appresa è capace di apprendimento per trasferimento online nel mondo reale partendo da zero. Rispetto agli approcci esistenti, inclusi IRL, RL e Behavior Cloning (BC), che hanno assunzioni più restrittive, l'approccio proposto dimostra un'efficienza campionaria e tassi di successo significativamente maggiori, aprendo una strada pratica per la modellazione e la pianificazione online del mondo a partire dall'osservazione e interazione. Video e altro su: https://uwrobotlearning.github.io/mpail2/.

English

Observational learning requires an agent to learn to perform a task by referencing only observations of the performed task. This work investigates the equivalent setting in real-world robot learning where access to hand-designed rewards and demonstrator actions are not assumed. To address this data-constrained setting, this work presents a planning-based Inverse Reinforcement Learning (IRL) algorithm for world modeling from observation and interaction alone. Experiments conducted entirely in the real-world demonstrate that this paradigm is effective for learning image-based manipulation tasks from scratch in under an hour, without assuming prior knowledge, pre-training, or data of any kind beyond task observations. Moreover, this work demonstrates that the learned world model representation is capable of online transfer learning in the real-world from scratch. In comparison to existing approaches, including IRL, RL, and Behavior Cloning (BC), which have more restrictive assumptions, the proposed approach demonstrates significantly greater sample efficiency and success rates, enabling a practical path forward for online world modeling and planning from observation and interaction. Videos and more at: https://uwrobotlearning.github.io/mpail2/.

Pianificazione dall'Osservazione e dall'Interazione

Planning from Observation and Interaction

Abstract

Support