Plannen vanuit Observatie en Interactie

Samenvatting

Observationeel leren vereist dat een agent een taak leert uitvoeren door alleen te verwijzen naar observaties van de uitgevoerde taak. Dit onderzoek bestudeert de equivalente setting in robotleren in de echte wereld, waarbij geen toegang wordt verondersteld tot handmatig ontworpen beloningen of demonstratoracties. Om deze data-arme setting aan te pakken, presenteert dit werk een op planning gebaseerd Inverse Reinforcement Learning (IRL)-algoritme voor wereldmodellering, uitsluitend gebaseerd op observatie en interactie. Experimenten die volledig in de echte wereld zijn uitgevoerd, tonen aan dat dit paradigma effectief is voor het leren van op beelden gebaseerde manipulatietaken vanaf nul in minder dan een uur, zonder voorafgaande kennis, voorafgaande training of gegevens van welke aard dan ook buiten taakobservaties. Bovendien toont dit werk aan dat de geleerde wereldmodelrepresentatie in staat is tot online transferleren in de echte wereld vanaf nul. In vergelijking met bestaande benaderingen, waaronder IRL, RL en Behavior Cloning (BC), die restrictievere aannames hebben, toont de voorgestelde aanpak een aanzienlijk grotere steekproefefficiëntie en slagingspercentages, wat een praktisch pad vooruit biedt voor online wereldmodellering en planning op basis van observatie en interactie. Video's en meer op: https://uwrobotlearning.github.io/mpail2/.

English

Observational learning requires an agent to learn to perform a task by referencing only observations of the performed task. This work investigates the equivalent setting in real-world robot learning where access to hand-designed rewards and demonstrator actions are not assumed. To address this data-constrained setting, this work presents a planning-based Inverse Reinforcement Learning (IRL) algorithm for world modeling from observation and interaction alone. Experiments conducted entirely in the real-world demonstrate that this paradigm is effective for learning image-based manipulation tasks from scratch in under an hour, without assuming prior knowledge, pre-training, or data of any kind beyond task observations. Moreover, this work demonstrates that the learned world model representation is capable of online transfer learning in the real-world from scratch. In comparison to existing approaches, including IRL, RL, and Behavior Cloning (BC), which have more restrictive assumptions, the proposed approach demonstrates significantly greater sample efficiency and success rates, enabling a practical path forward for online world modeling and planning from observation and interaction. Videos and more at: https://uwrobotlearning.github.io/mpail2/.

Plannen vanuit Observatie en Interactie

Planning from Observation and Interaction

Samenvatting

Support