RL + Transformer = Un Résolveur de Problèmes Polyvalent

papers.abstract

Et si l'intelligence artificielle pouvait non seulement résoudre les problèmes pour lesquels elle a été entraînée, mais aussi apprendre à s'enseigner elle-même à résoudre de nouveaux problèmes (c'est-à-dire, méta-apprentissage) ? Dans cette étude, nous démontrons qu'un transformeur pré-entraîné, affiné par l'apprentissage par renforcement sur plusieurs épisodes, développe la capacité de résoudre des problèmes auxquels il n'a jamais été confronté auparavant - une capacité émergente appelée Apprentissage par Renforcement en Contexte (ICRL). Ce puissant méta-apprenant excelle non seulement dans la résolution d'environnements non vus auparavant avec une efficacité d'échantillonnage remarquable, mais montre également de bonnes performances dans des environnements hors distribution. De plus, nous montrons qu'il fait preuve de robustesse face à la qualité de ses données d'entraînement, assemble de manière transparente des comportements de son contexte, et s'adapte à des environnements non stationnaires. Ces comportements démontrent qu'un transformeur entraîné par RL peut améliorer de manière itérative ses propres solutions, ce qui en fait un excellent résolveur de problèmes polyvalent.

English

What if artificial intelligence could not only solve problems for which it was trained but also learn to teach itself to solve new problems (i.e., meta-learn)? In this study, we demonstrate that a pre-trained transformer fine-tuned with reinforcement learning over multiple episodes develops the ability to solve problems that it has never encountered before - an emergent ability called In-Context Reinforcement Learning (ICRL). This powerful meta-learner not only excels in solving unseen in-distribution environments with remarkable sample efficiency, but also shows strong performance in out-of-distribution environments. In addition, we show that it exhibits robustness to the quality of its training data, seamlessly stitches together behaviors from its context, and adapts to non-stationary environments. These behaviors demonstrate that an RL-trained transformer can iteratively improve upon its own solutions, making it an excellent general-purpose problem solver.

RL + Transformer = Un Résolveur de Problèmes Polyvalent

RL + Transformer = A General-Purpose Problem Solver

papers.abstract

Support