Планирование на основе наблюдения и взаимодействия

Аннотация

Обучение путем наблюдения требует от агента научиться выполнять задачу, используя только наблюдения за ее выполнением. В данной работе исследуется аналогичная постановка задачи в области обучения реальных роботов, где не предполагается доступ к заранее заданным функциям вознаграждения или действиям демонстратора. Для решения этой задачи в условиях ограниченности данных представлен алгоритм обучения с обратным подкреплением (Inverse Reinforcement Learning, IRL), основанный на планировании, для построения модели мира исключительно на основе наблюдений и взаимодействия. Эксперименты, полностью проведенные в реальном мире, демонстрируют, что данный подход эффективен для обучения манипуляционным задачам на основе изображений с нуля менее чем за час, без использования априорных знаний, предварительного обучения или каких-либо данных, кроме наблюдений за задачей. Более того, показано, что полученная модель мира способна к онлайн-переобучению в реальном мире с нуля. По сравнению с существующими подходами, включая IRL, обучение с подкреплением (RL) и клонирование поведения (Behavior Cloning, BC), которые основаны на более строгих предположениях, предложенный метод демонстрирует значительно более высокую эффективность использования данных и процент успешного выполнения задач, открывая практический путь для онлайн-моделирования мира и планирования на основе наблюдений и взаимодействия. Видео и дополнительная информация доступны по ссылке: https://uwrobotlearning.github.io/mpail2/.

English

Observational learning requires an agent to learn to perform a task by referencing only observations of the performed task. This work investigates the equivalent setting in real-world robot learning where access to hand-designed rewards and demonstrator actions are not assumed. To address this data-constrained setting, this work presents a planning-based Inverse Reinforcement Learning (IRL) algorithm for world modeling from observation and interaction alone. Experiments conducted entirely in the real-world demonstrate that this paradigm is effective for learning image-based manipulation tasks from scratch in under an hour, without assuming prior knowledge, pre-training, or data of any kind beyond task observations. Moreover, this work demonstrates that the learned world model representation is capable of online transfer learning in the real-world from scratch. In comparison to existing approaches, including IRL, RL, and Behavior Cloning (BC), which have more restrictive assumptions, the proposed approach demonstrates significantly greater sample efficiency and success rates, enabling a practical path forward for online world modeling and planning from observation and interaction. Videos and more at: https://uwrobotlearning.github.io/mpail2/.

Планирование на основе наблюдения и взаимодействия

Planning from Observation and Interaction

Аннотация

Support