ChatPaper.aiChatPaper

Kontrastive beispielbasierte Steuerung

Contrastive Example-Based Control

July 24, 2023
Autoren: Kyle Hatch, Benjamin Eysenbach, Rafael Rafailov, Tianhe Yu, Ruslan Salakhutdinov, Sergey Levine, Chelsea Finn
cs.AI

Zusammenfassung

Während viele reale Probleme, die von Reinforcement Learning profitieren könnten, selten in das MDP-Schema passen, ist die Interaktion mit der Umgebung oft kostspielig und die Spezifikation von Belohnungsfunktionen herausfordernd. Angespornt durch diese Herausforderungen haben frühere Arbeiten datengetriebene Ansätze entwickelt, die vollständig aus Stichproben der Übergangsdynamik und Beispielen für Zustände mit hoher Ausbeute lernen. Diese Methoden lernen typischerweise eine Belohnungsfunktion aus Zuständen mit hoher Ausbeute, verwenden diese Belohnungsfunktion, um die Übergänge zu beschriften, und wenden dann einen Offline-RL-Algorithmus auf diese Übergänge an. Obwohl diese Methoden bei vielen Aufgaben gute Ergebnisse erzielen können, sind sie oft komplex und erfordern Regularisierung und Temporal-Difference-Updates. In diesem Artikel schlagen wir eine Methode für offline, beispielbasiertes Steuern vor, die ein implizites Modell von Mehrschritt-Übergängen lernt, anstatt eine Belohnungsfunktion. Wir zeigen, dass dieses implizite Modell die Q-Werte für das beispielbasierte Steuerungsproblem darstellen kann. Über eine Reihe von zustandsbasierten und bildbasierten Offline-Steuerungsaufgaben hinweg übertrifft unsere Methode Baseline-Methoden, die gelernte Belohnungsfunktionen verwenden; zusätzliche Experimente zeigen verbesserte Robustheit und Skalierbarkeit mit der Datensatzgröße.
English
While many real-world problems that might benefit from reinforcement learning, these problems rarely fit into the MDP mold: interacting with the environment is often expensive and specifying reward functions is challenging. Motivated by these challenges, prior work has developed data-driven approaches that learn entirely from samples from the transition dynamics and examples of high-return states. These methods typically learn a reward function from high-return states, use that reward function to label the transitions, and then apply an offline RL algorithm to these transitions. While these methods can achieve good results on many tasks, they can be complex, often requiring regularization and temporal difference updates. In this paper, we propose a method for offline, example-based control that learns an implicit model of multi-step transitions, rather than a reward function. We show that this implicit model can represent the Q-values for the example-based control problem. Across a range of state-based and image-based offline control tasks, our method outperforms baselines that use learned reward functions; additional experiments demonstrate improved robustness and scaling with dataset size.
PDF40December 15, 2024