Representaciones basadas en modelos sin sesgo para control continuo eficiente en muestras

Resumen

Las representaciones basadas en modelos han destacado recientemente como un marco prometedor que incorpora información de dinámicas latentes en las representaciones para el aprendizaje de actores-críticos fuera de política. Este enfoque combina implícitamente las ventajas de los métodos sin modelo y basados en modelos, evitando los costos de entrenamiento asociados a estos últimos. Sin embargo, los métodos actuales de representación basada en modelos pueden fallar al capturar información suficiente sobre variables relevantes y pueden sobreajustarse a experiencias tempranas en el búfer de repetición. Esto introduce sesgos en el aprendizaje de representaciones y actores-críticos, lo que conduce a un rendimiento inferior. Para abordar este problema, proponemos el algoritmo DR.Q (Representaciones sin sesgo para Q-learning basado en modelos). DR.Q maximiza explícitamente la información mutua entre las representaciones del par estado-acción actual y el siguiente estado, además de minimizar sus desviaciones, y muestrea transiciones con repetición de experiencia priorizada atenuada. Evaluamos DR.Q en numerosos puntos de referencia de control continuo con un único conjunto de hiperparámetros, y los resultados demuestran que DR.Q puede igualar o superar las líneas base sólidas recientes, a veces superándolas con un amplio margen. Nuestro código está disponible en https://github.com/dmksjfl/DR.Q.

English

Model-based representations recently stand out as a promising framework that embeds latent dynamics information into the representations for downstream off-policy actor-critic learning. It implicitly combines the advantages of both model-free and model-based approaches while avoiding the training costs associated with model-based methods. Nevertheless, existing model-based representation methods can fail to capture sufficient information about relevant variables and can overfit to early experiences in the replay buffer. These incur biases in representation and actor-critic learning, leading to inferior performance. To address this, we propose Debiased model-based Representations for Q-learning, tagged DR.Q algorithm. DR.Q explicitly maximizes the mutual information between the representations of the current state-action pair and the next state besides minimizing their deviations, and samples transitions with faded prioritized experience replay. We evaluate DR.Q on numerous continuous control benchmarks with a single set of hyperparameters, and the results demonstrate that DR.Q can match or surpass recent strong baselines, sometimes outperforming them by a large margin. Our code is available at https://github.com/dmksjfl/DR.Q.

Representaciones basadas en modelos sin sesgo para control continuo eficiente en muestras

Debiased Model-based Representations for Sample-efficient Continuous Control

Resumen

Support