Planung durch Beobachtung und Interaktion

Zusammenfassung

Beobachtungslernen erfordert, dass ein Agent eine Aufgabe erlernt, indem er ausschließlich auf Beobachtungen der ausgeführten Aufgabe zurückgreift. Diese Arbeit untersucht das entsprechende Szenario im realen Robotik-Lernen, bei dem weder Zugang zu handgefertigten Belohnungsfunktionen noch zu Aktionen des Demonstrators vorausgesetzt wird. Um diesen datenbeschränkten Rahmen zu adressieren, stellt diese Arbeit einen planungsbasierten Algorithmus für Inverse Verstärkungslernen (IRL) vor, der Weltmodelle allein aus Beobachtungen und Interaktionen erlernt. Vollständig in der realen Welt durchgeführte Experimente zeigen, dass dieses Paradigma effektiv ist, um bildbasierte Manipulationsaufgaben in weniger als einer Stunde von Grund auf zu erlernen, ohne Vorwissen, Vortraining oder Daten jeglicher Art außer den Aufgabenbeobachtungen vorauszusetzen. Darüber hinaus zeigt diese Arbeit, dass die gelernte Weltmodell-Darstellung zu Online-Transferlernen in der realen Welt von Grund auf fähig ist. Im Vergleich zu bestehenden Ansätzen, einschließlich IRL, RL und Behavior Cloning (BC), die restriktivere Annahmen treffen, weist der vorgeschlagene Ansatz eine signifikant höhere Stichprobeneffizienz und Erfolgsquote auf und eröffnet damit einen praktikablen Weg für Online-Weltmodellierung und Planung aus Beobachtung und Interaktion. Videos und mehr unter: https://uwrobotlearning.github.io/mpail2/.

English

Observational learning requires an agent to learn to perform a task by referencing only observations of the performed task. This work investigates the equivalent setting in real-world robot learning where access to hand-designed rewards and demonstrator actions are not assumed. To address this data-constrained setting, this work presents a planning-based Inverse Reinforcement Learning (IRL) algorithm for world modeling from observation and interaction alone. Experiments conducted entirely in the real-world demonstrate that this paradigm is effective for learning image-based manipulation tasks from scratch in under an hour, without assuming prior knowledge, pre-training, or data of any kind beyond task observations. Moreover, this work demonstrates that the learned world model representation is capable of online transfer learning in the real-world from scratch. In comparison to existing approaches, including IRL, RL, and Behavior Cloning (BC), which have more restrictive assumptions, the proposed approach demonstrates significantly greater sample efficiency and success rates, enabling a practical path forward for online world modeling and planning from observation and interaction. Videos and more at: https://uwrobotlearning.github.io/mpail2/.

Planung durch Beobachtung und Interaktion

Planning from Observation and Interaction

Zusammenfassung

Support