Überwachtes Vortraining kann In-Context Reinforcement Learning erlernen.
Supervised Pretraining Can Learn In-Context Reinforcement Learning
June 26, 2023
Autoren: Jonathan N. Lee, Annie Xie, Aldo Pacchiano, Yash Chandak, Chelsea Finn, Ofir Nachum, Emma Brunskill
cs.AI
Zusammenfassung
Große Transformer-Modelle, die auf vielfältigen Datensätzen trainiert wurden, haben eine bemerkenswerte Fähigkeit gezeigt, im Kontext zu lernen und dabei hohe Few-Shot-Leistungen bei Aufgaben zu erzielen, für die sie nicht explizit trainiert wurden. In dieser Arbeit untersuchen wir die Fähigkeiten von Transformern, im Kontext zu lernen, insbesondere bei Entscheidungsproblemen, d.h. Reinforcement Learning (RL) für Bandits und Markov-Entscheidungsprozesse. Dazu führen wir den Decision-Pretrained Transformer (DPT) ein und untersuchen ihn, eine Methode zum überwachten Vortraining, bei der der Transformer eine optimale Aktion vorhersagt, basierend auf einem Abfragezustand und einem im Kontext bereitgestellten Datensatz von Interaktionen über eine Vielzahl von Aufgaben hinweg. Dieses Verfahren, obwohl einfach, erzeugt ein Modell mit mehreren überraschenden Fähigkeiten. Wir stellen fest, dass der vortrainierte Transformer verwendet werden kann, um eine Reihe von RL-Problemen im Kontext zu lösen, wobei er sowohl Exploration online als auch Konservatismus offline zeigt, obwohl er nicht explizit dafür trainiert wurde. Das Modell generalisiert auch über die Vortrainingsverteilung hinaus auf neue Aufgaben und passt seine Entscheidungsstrategien automatisch an unbekannte Strukturen an. Theoretisch zeigen wir, dass DPT als effiziente Implementierung des Bayesian Posterior Sampling betrachtet werden kann, eines nachweislich probeneffizienten RL-Algorithmus. Wir nutzen diese Verbindung weiter, um Garantien für das Bedauern des im Kontext erzeugten Algorithmus durch DPT zu geben, und beweisen, dass er schneller lernen kann als die Algorithmen, die zur Erzeugung der Vortrainingsdaten verwendet wurden. Diese Ergebnisse deuten auf einen vielversprechenden und dennoch einfachen Weg hin, starke Fähigkeiten zur Entscheidungsfindung im Kontext in Transformer-Modelle zu integrieren.
English
Large transformer models trained on diverse datasets have shown a remarkable
ability to learn in-context, achieving high few-shot performance on tasks they
were not explicitly trained to solve. In this paper, we study the in-context
learning capabilities of transformers in decision-making problems, i.e.,
reinforcement learning (RL) for bandits and Markov decision processes. To do
so, we introduce and study Decision-Pretrained Transformer (DPT), a supervised
pretraining method where the transformer predicts an optimal action given a
query state and an in-context dataset of interactions, across a diverse set of
tasks. This procedure, while simple, produces a model with several surprising
capabilities. We find that the pretrained transformer can be used to solve a
range of RL problems in-context, exhibiting both exploration online and
conservatism offline, despite not being explicitly trained to do so. The model
also generalizes beyond the pretraining distribution to new tasks and
automatically adapts its decision-making strategies to unknown structure.
Theoretically, we show DPT can be viewed as an efficient implementation of
Bayesian posterior sampling, a provably sample-efficient RL algorithm. We
further leverage this connection to provide guarantees on the regret of the
in-context algorithm yielded by DPT, and prove that it can learn faster than
algorithms used to generate the pretraining data. These results suggest a
promising yet simple path towards instilling strong in-context decision-making
abilities in transformers.