Controle Baseado em Exemplos Contrastivos
Contrastive Example-Based Control
July 24, 2023
Autores: Kyle Hatch, Benjamin Eysenbach, Rafael Rafailov, Tianhe Yu, Ruslan Salakhutdinov, Sergey Levine, Chelsea Finn
cs.AI
Resumo
Embora muitos problemas do mundo real possam se beneficiar do aprendizado por reforço, esses problemas raramente se encaixam no molde de MDP: interagir com o ambiente é frequentemente custoso e especificar funções de recompensa é desafiador. Motivados por esses desafios, trabalhos anteriores desenvolveram abordagens baseadas em dados que aprendem inteiramente a partir de amostras da dinâmica de transição e exemplos de estados de alto retorno. Esses métodos normalmente aprendem uma função de recompensa a partir de estados de alto retorno, usam essa função de recompensa para rotular as transições e, em seguida, aplicam um algoritmo de RL offline a essas transições. Embora esses métodos possam alcançar bons resultados em muitas tarefas, eles podem ser complexos, frequentemente exigindo regularização e atualizações de diferença temporal. Neste artigo, propomos um método para controle offline baseado em exemplos que aprende um modelo implícito de transições de múltiplos passos, em vez de uma função de recompensa. Mostramos que esse modelo implícito pode representar os valores Q para o problema de controle baseado em exemplos. Em uma variedade de tarefas de controle offline baseadas em estado e em imagens, nosso método supera as linhas de base que usam funções de recompensa aprendidas; experimentos adicionais demonstram maior robustez e escalabilidade com o tamanho do conjunto de dados.
English
While many real-world problems that might benefit from reinforcement
learning, these problems rarely fit into the MDP mold: interacting with the
environment is often expensive and specifying reward functions is challenging.
Motivated by these challenges, prior work has developed data-driven approaches
that learn entirely from samples from the transition dynamics and examples of
high-return states. These methods typically learn a reward function from
high-return states, use that reward function to label the transitions, and then
apply an offline RL algorithm to these transitions. While these methods can
achieve good results on many tasks, they can be complex, often requiring
regularization and temporal difference updates. In this paper, we propose a
method for offline, example-based control that learns an implicit model of
multi-step transitions, rather than a reward function. We show that this
implicit model can represent the Q-values for the example-based control
problem. Across a range of state-based and image-based offline control tasks,
our method outperforms baselines that use learned reward functions; additional
experiments demonstrate improved robustness and scaling with dataset size.