Control Basado en Ejemplos Contrastivos
Contrastive Example-Based Control
July 24, 2023
Autores: Kyle Hatch, Benjamin Eysenbach, Rafael Rafailov, Tianhe Yu, Ruslan Salakhutdinov, Sergey Levine, Chelsea Finn
cs.AI
Resumen
Si bien muchos problemas del mundo real podrían beneficiarse del aprendizaje por refuerzo, estos rara vez se ajustan al molde de los MDP (Procesos de Decisión de Markov): la interacción con el entorno suele ser costosa y la especificación de funciones de recompensa es un desafío. Motivados por estos retos, trabajos previos han desarrollado enfoques basados en datos que aprenden completamente a partir de muestras de las dinámicas de transición y ejemplos de estados de alto retorno. Estos métodos suelen aprender una función de recompensa a partir de estados de alto retorno, utilizan esa función para etiquetar las transiciones y luego aplican un algoritmo de aprendizaje por refuerzo offline a estas transiciones. Aunque estos métodos pueden lograr buenos resultados en muchas tareas, pueden ser complejos, a menudo requiriendo regularización y actualizaciones de diferencias temporales. En este artículo, proponemos un método para el control offline basado en ejemplos que aprende un modelo implícito de transiciones multi-paso, en lugar de una función de recompensa. Demostramos que este modelo implícito puede representar los valores Q para el problema de control basado en ejemplos. En una variedad de tareas de control offline basadas en estados e imágenes, nuestro método supera a los enfoques de referencia que utilizan funciones de recompensa aprendidas; experimentos adicionales demuestran una mayor robustez y escalabilidad con el tamaño del conjunto de datos.
English
While many real-world problems that might benefit from reinforcement
learning, these problems rarely fit into the MDP mold: interacting with the
environment is often expensive and specifying reward functions is challenging.
Motivated by these challenges, prior work has developed data-driven approaches
that learn entirely from samples from the transition dynamics and examples of
high-return states. These methods typically learn a reward function from
high-return states, use that reward function to label the transitions, and then
apply an offline RL algorithm to these transitions. While these methods can
achieve good results on many tasks, they can be complex, often requiring
regularization and temporal difference updates. In this paper, we propose a
method for offline, example-based control that learns an implicit model of
multi-step transitions, rather than a reward function. We show that this
implicit model can represent the Q-values for the example-based control
problem. Across a range of state-based and image-based offline control tasks,
our method outperforms baselines that use learned reward functions; additional
experiments demonstrate improved robustness and scaling with dataset size.