Controllo Esemplificativo Contrastivo
Contrastive Example-Based Control
July 24, 2023
Autori: Kyle Hatch, Benjamin Eysenbach, Rafael Rafailov, Tianhe Yu, Ruslan Salakhutdinov, Sergey Levine, Chelsea Finn
cs.AI
Abstract
Sebbene molti problemi del mondo reale possano trarre vantaggio dall'apprendimento per rinforzo, raramente questi problemi si adattano al modello MDP: interagire con l'ambiente è spesso costoso e specificare funzioni di ricompensa è complesso. Spinti da queste sfide, lavori precedenti hanno sviluppato approcci basati sui dati che apprendono interamente da campioni delle dinamiche di transizione e da esempi di stati ad alto rendimento. Questi metodi tipicamente apprendono una funzione di ricompensa da stati ad alto rendimento, utilizzano tale funzione per etichettare le transizioni e poi applicano un algoritmo di RL offline a queste transizioni. Sebbene questi metodi possano ottenere buoni risultati in molti compiti, possono essere complessi, spesso richiedendo regolarizzazione e aggiornamenti a differenza temporale. In questo articolo, proponiamo un metodo per il controllo offline basato su esempi che apprende un modello implicito di transizioni multi-step, piuttosto che una funzione di ricompensa. Dimostriamo che questo modello implicito può rappresentare i valori Q per il problema di controllo basato su esempi. In una gamma di compiti di controllo offline basati su stati e immagini, il nostro metodo supera i baseline che utilizzano funzioni di ricompensa apprese; ulteriori esperimenti dimostrano una maggiore robustezza e scalabilità con la dimensione del dataset.
English
While many real-world problems that might benefit from reinforcement
learning, these problems rarely fit into the MDP mold: interacting with the
environment is often expensive and specifying reward functions is challenging.
Motivated by these challenges, prior work has developed data-driven approaches
that learn entirely from samples from the transition dynamics and examples of
high-return states. These methods typically learn a reward function from
high-return states, use that reward function to label the transitions, and then
apply an offline RL algorithm to these transitions. While these methods can
achieve good results on many tasks, they can be complex, often requiring
regularization and temporal difference updates. In this paper, we propose a
method for offline, example-based control that learns an implicit model of
multi-step transitions, rather than a reward function. We show that this
implicit model can represent the Q-values for the example-based control
problem. Across a range of state-based and image-based offline control tasks,
our method outperforms baselines that use learned reward functions; additional
experiments demonstrate improved robustness and scaling with dataset size.