RL + Transformer = Un Résolveur de Problèmes Polyvalent
RL + Transformer = A General-Purpose Problem Solver
January 24, 2025
Auteurs: Micah Rentschler, Jesse Roberts
cs.AI
Résumé
Et si l'intelligence artificielle pouvait non seulement résoudre les problèmes pour lesquels elle a été entraînée, mais aussi apprendre à s'enseigner elle-même à résoudre de nouveaux problèmes (c'est-à-dire, méta-apprentissage) ? Dans cette étude, nous démontrons qu'un transformeur pré-entraîné, affiné par l'apprentissage par renforcement sur plusieurs épisodes, développe la capacité de résoudre des problèmes auxquels il n'a jamais été confronté auparavant - une capacité émergente appelée Apprentissage par Renforcement en Contexte (ICRL). Ce puissant méta-apprenant excelle non seulement dans la résolution d'environnements non vus auparavant avec une efficacité d'échantillonnage remarquable, mais montre également de bonnes performances dans des environnements hors distribution. De plus, nous montrons qu'il fait preuve de robustesse face à la qualité de ses données d'entraînement, assemble de manière transparente des comportements de son contexte, et s'adapte à des environnements non stationnaires. Ces comportements démontrent qu'un transformeur entraîné par RL peut améliorer de manière itérative ses propres solutions, ce qui en fait un excellent résolveur de problèmes polyvalent.
English
What if artificial intelligence could not only solve problems for which it
was trained but also learn to teach itself to solve new problems (i.e.,
meta-learn)? In this study, we demonstrate that a pre-trained transformer
fine-tuned with reinforcement learning over multiple episodes develops the
ability to solve problems that it has never encountered before - an emergent
ability called In-Context Reinforcement Learning (ICRL). This powerful
meta-learner not only excels in solving unseen in-distribution environments
with remarkable sample efficiency, but also shows strong performance in
out-of-distribution environments. In addition, we show that it exhibits
robustness to the quality of its training data, seamlessly stitches together
behaviors from its context, and adapts to non-stationary environments. These
behaviors demonstrate that an RL-trained transformer can iteratively improve
upon its own solutions, making it an excellent general-purpose problem solver.Summary
AI-Generated Summary