Planejamento a partir de Observação e Interação

Resumo

A aprendizagem por observação requer que um agente aprenda a executar uma tarefa referenciando apenas observações da tarefa realizada. Este trabalho investiga o cenário equivalente na aprendizagem de robôs do mundo real, onde não se assume o acesso a recompensas projetadas manualmente nem a ações do demonstrador. Para abordar este cenário com restrições de dados, este trabalho apresenta um algoritmo de Aprendizagem por Reforço Inverso (IRL) baseado em planejamento para modelagem do mundo a partir apenas de observação e interação. Experimentos conduzidos inteiramente no mundo real demonstram que este paradigma é eficaz para aprender tarefas de manipulação baseadas em imagem a partir do zero em menos de uma hora, sem assumir conhecimento prévio, pré-treinamento ou dados de qualquer tipo além das observações da tarefa. Além disso, este trabalho demonstra que a representação do modelo de mundo aprendida é capaz de aprendizagem por transferência online no mundo real a partir do zero. Em comparação com abordagens existentes, incluindo IRL, RL e Clonagem de Comportamento (BC), que possuem premissas mais restritivas, a abordagem proposta demonstra uma eficiência amostral e taxas de sucesso significativamente maiores, permitindo um caminho prático para a modelagem e planejamento online do mundo a partir de observação e interação. Vídeos e mais informações em: https://uwrobotlearning.github.io/mpail2/.

English

Observational learning requires an agent to learn to perform a task by referencing only observations of the performed task. This work investigates the equivalent setting in real-world robot learning where access to hand-designed rewards and demonstrator actions are not assumed. To address this data-constrained setting, this work presents a planning-based Inverse Reinforcement Learning (IRL) algorithm for world modeling from observation and interaction alone. Experiments conducted entirely in the real-world demonstrate that this paradigm is effective for learning image-based manipulation tasks from scratch in under an hour, without assuming prior knowledge, pre-training, or data of any kind beyond task observations. Moreover, this work demonstrates that the learned world model representation is capable of online transfer learning in the real-world from scratch. In comparison to existing approaches, including IRL, RL, and Behavior Cloning (BC), which have more restrictive assumptions, the proposed approach demonstrates significantly greater sample efficiency and success rates, enabling a practical path forward for online world modeling and planning from observation and interaction. Videos and more at: https://uwrobotlearning.github.io/mpail2/.