Planification à partir de l'Observation et de l'Interaction

Résumé

L'apprentissage par observation nécessite qu'un agent apprenne à exécuter une tâche en se référant uniquement aux observations de la tâche exécutée. Ce travail étudie le cadre équivalent dans l'apprentissage robotique réel, où l'accès aux récompenses conçues manuellement et aux actions du démonstrateur n'est pas supposé. Pour aborder ce cadre contraint en données, ce travail présente un algorithme de planification basé sur l'Apprentissage par Renforcement Inverse (ARI) pour la modélisation du monde à partir de la seule observation et interaction. Des expériences entièrement menées dans le monde réel démontrent que ce paradigme est efficace pour apprendre des tâches de manipulation basées sur l'image à partir de zéro en moins d'une heure, sans supposer de connaissances préalables, de pré-entraînement ou de données d'aucune sorte au-delà des observations de la tâche. De plus, ce travail démontre que la représentation du modèle du monde apprise est capable d'un apprentissage par transfert en ligne dans le monde réel à partir de zéro. Par rapport aux approches existantes, y compris l'ARI, l'AR et l'Imitation de Comportement (IC), qui ont des hypothèses plus restrictives, l'approche proposée démontre une efficacité d'échantillonnage et des taux de réussite significativement plus élevés, ouvrant une voie pratique pour la modélisation en ligne du monde et la planification à partir de l'observation et de l'interaction. Vidéos et plus sur : https://uwrobotlearning.github.io/mpail2/.

English

Observational learning requires an agent to learn to perform a task by referencing only observations of the performed task. This work investigates the equivalent setting in real-world robot learning where access to hand-designed rewards and demonstrator actions are not assumed. To address this data-constrained setting, this work presents a planning-based Inverse Reinforcement Learning (IRL) algorithm for world modeling from observation and interaction alone. Experiments conducted entirely in the real-world demonstrate that this paradigm is effective for learning image-based manipulation tasks from scratch in under an hour, without assuming prior knowledge, pre-training, or data of any kind beyond task observations. Moreover, this work demonstrates that the learned world model representation is capable of online transfer learning in the real-world from scratch. In comparison to existing approaches, including IRL, RL, and Behavior Cloning (BC), which have more restrictive assumptions, the proposed approach demonstrates significantly greater sample efficiency and success rates, enabling a practical path forward for online world modeling and planning from observation and interaction. Videos and more at: https://uwrobotlearning.github.io/mpail2/.

Planification à partir de l'Observation et de l'Interaction

Planning from Observation and Interaction

Résumé

Support