L'Addestramento Supervisionato Preliminare Può Apprendere l'Apprendimento per Rinforzo In-Contesto

Abstract

I grandi modelli transformer addestrati su dataset diversificati hanno dimostrato una notevole capacità di apprendimento in-context, raggiungendo elevate prestazioni few-shot su compiti per i quali non erano stati esplicitamente addestrati. In questo articolo, studiamo le capacità di apprendimento in-context dei transformer nei problemi di decision-making, ovvero nel reinforcement learning (RL) per banditi e processi decisionali di Markov. A tal fine, introduciamo e analizziamo il Decision-Pretrained Transformer (DPT), un metodo di preaddestramento supervisionato in cui il transformer predice un'azione ottimale data una query di stato e un dataset in-context di interazioni, su un insieme diversificato di compiti. Questa procedura, sebbene semplice, produce un modello con diverse capacità sorprendenti. Troviamo che il transformer preaddestrato può essere utilizzato per risolvere una gamma di problemi RL in-context, mostrando sia esplorazione online che conservatorismo offline, nonostante non sia stato esplicitamente addestrato per farlo. Il modello generalizza inoltre oltre la distribuzione di preaddestramento a nuovi compiti e adatta automaticamente le sue strategie decisionali a strutture sconosciute. Teoricamente, dimostriamo che il DPT può essere visto come un'implementazione efficiente del campionamento bayesiano a posteriori, un algoritmo RL provabilmente efficiente in termini di campioni. Sfruttiamo ulteriormente questa connessione per fornire garanzie sul regret dell'algoritmo in-context prodotto dal DPT e dimostriamo che può apprendere più velocemente degli algoritmi utilizzati per generare i dati di preaddestramento. Questi risultati suggeriscono un percorso promettente e semplice per instillare forti capacità decisionali in-context nei transformer.

English

Large transformer models trained on diverse datasets have shown a remarkable ability to learn in-context, achieving high few-shot performance on tasks they were not explicitly trained to solve. In this paper, we study the in-context learning capabilities of transformers in decision-making problems, i.e., reinforcement learning (RL) for bandits and Markov decision processes. To do so, we introduce and study Decision-Pretrained Transformer (DPT), a supervised pretraining method where the transformer predicts an optimal action given a query state and an in-context dataset of interactions, across a diverse set of tasks. This procedure, while simple, produces a model with several surprising capabilities. We find that the pretrained transformer can be used to solve a range of RL problems in-context, exhibiting both exploration online and conservatism offline, despite not being explicitly trained to do so. The model also generalizes beyond the pretraining distribution to new tasks and automatically adapts its decision-making strategies to unknown structure. Theoretically, we show DPT can be viewed as an efficient implementation of Bayesian posterior sampling, a provably sample-efficient RL algorithm. We further leverage this connection to provide guarantees on the regret of the in-context algorithm yielded by DPT, and prove that it can learn faster than algorithms used to generate the pretraining data. These results suggest a promising yet simple path towards instilling strong in-context decision-making abilities in transformers.

L'Addestramento Supervisionato Preliminare Può Apprendere l'Apprendimento per Rinforzo In-Contesto

Supervised Pretraining Can Learn In-Context Reinforcement Learning

Abstract

Support