Contrastief Voorbeeldgebaseerd Beheer
Contrastive Example-Based Control
July 24, 2023
Auteurs: Kyle Hatch, Benjamin Eysenbach, Rafael Rafailov, Tianhe Yu, Ruslan Salakhutdinov, Sergey Levine, Chelsea Finn
cs.AI
Samenvatting
Hoewel veel real-world problemen baat kunnen hebben bij reinforcement learning, passen deze problemen zelden in het MDP-model: interactie met de omgeving is vaak kostbaar en het specificeren van beloningsfuncties is uitdagend. Gemotiveerd door deze uitdagingen heeft eerder werk datagestuurde benaderingen ontwikkeld die volledig leren van steekproeven uit de overgangsdynamiek en voorbeelden van toestanden met een hoge opbrengst. Deze methoden leren typisch een beloningsfunctie van toestanden met een hoge opbrengst, gebruiken die beloningsfunctie om de overgangen te labelen, en passen vervolgens een offline RL-algoritme toe op deze overgangen. Hoewel deze methoden goede resultaten kunnen behalen bij veel taken, kunnen ze complex zijn en vaak regularisatie en temporal difference updates vereisen. In dit artikel stellen we een methode voor voor offline, voorbeeldgebaseerde controle die een impliciet model van meerstaps-overgangen leert, in plaats van een beloningsfunctie. We laten zien dat dit impliciete model de Q-waarden voor het voorbeeldgebaseerde controleprobleem kan representeren. Over een reeks state-gebaseerde en image-gebaseerde offline controle taken presteert onze methode beter dan baseline-methoden die geleerde beloningsfuncties gebruiken; aanvullende experimenten tonen verbeterde robuustheid en schaalbaarheid met de datasetgrootte aan.
English
While many real-world problems that might benefit from reinforcement
learning, these problems rarely fit into the MDP mold: interacting with the
environment is often expensive and specifying reward functions is challenging.
Motivated by these challenges, prior work has developed data-driven approaches
that learn entirely from samples from the transition dynamics and examples of
high-return states. These methods typically learn a reward function from
high-return states, use that reward function to label the transitions, and then
apply an offline RL algorithm to these transitions. While these methods can
achieve good results on many tasks, they can be complex, often requiring
regularization and temporal difference updates. In this paper, we propose a
method for offline, example-based control that learns an implicit model of
multi-step transitions, rather than a reward function. We show that this
implicit model can represent the Q-values for the example-based control
problem. Across a range of state-based and image-based offline control tasks,
our method outperforms baselines that use learned reward functions; additional
experiments demonstrate improved robustness and scaling with dataset size.