Planificación a partir de Observación e Interacción

Resumen

El aprendizaje por observación requiere que un agente aprenda a realizar una tarea refiriéndose únicamente a observaciones de la tarea ejecutada. Este trabajo investiga el escenario equivalente en el aprendizaje robótico del mundo real, donde no se asume el acceso a recompensas diseñadas manualmente ni a las acciones del demostrador. Para abordar este entorno con restricciones de datos, este trabajo presenta un algoritmo de Aprendizaje por Refuerzo Inverso (IRL) basado en planificación para el modelado del mundo a partir únicamente de la observación y la interacción. Los experimentos realizados completamente en el mundo real demuestran que este paradigma es efectivo para aprender tareas de manipulación basadas en imágenes desde cero en menos de una hora, sin asumir conocimiento previo, pre-entrenamiento o datos de ningún tipo más allá de las observaciones de la tarea. Además, este trabajo demuestra que la representación del modelo del mundo aprendida es capaz de realizar aprendizaje por transferencia en línea en el mundo real desde cero. En comparación con enfoques existentes, incluidos IRL, RL y Clonación de Comportamiento (BC), que tienen suposiciones más restrictivas, el enfoque propuesto demuestra una eficiencia muestral y tasas de éxito significativamente mayores, permitiendo un camino práctico hacia adelante para el modelado del mundo en línea y la planificación a partir de la observación y la interacción. Videos y más en: https://uwrobotlearning.github.io/mpail2/.

English

Observational learning requires an agent to learn to perform a task by referencing only observations of the performed task. This work investigates the equivalent setting in real-world robot learning where access to hand-designed rewards and demonstrator actions are not assumed. To address this data-constrained setting, this work presents a planning-based Inverse Reinforcement Learning (IRL) algorithm for world modeling from observation and interaction alone. Experiments conducted entirely in the real-world demonstrate that this paradigm is effective for learning image-based manipulation tasks from scratch in under an hour, without assuming prior knowledge, pre-training, or data of any kind beyond task observations. Moreover, this work demonstrates that the learned world model representation is capable of online transfer learning in the real-world from scratch. In comparison to existing approaches, including IRL, RL, and Behavior Cloning (BC), which have more restrictive assumptions, the proposed approach demonstrates significantly greater sample efficiency and success rates, enabling a practical path forward for online world modeling and planning from observation and interaction. Videos and more at: https://uwrobotlearning.github.io/mpail2/.

Planificación a partir de Observación e Interacción

Planning from Observation and Interaction

Resumen

Support