RL + Transformer = Un Risolutore di Problemi a Uso Generale
RL + Transformer = A General-Purpose Problem Solver
January 24, 2025
Autori: Micah Rentschler, Jesse Roberts
cs.AI
Abstract
E se l'intelligenza artificiale non solo potesse risolvere problemi per i quali è stata addestrata, ma imparasse anche a insegnare a se stessa a risolvere nuovi problemi (cioè, meta-apprendimento)? In questo studio, dimostriamo che un trasformatore pre-addestrato, affinato con apprendimento per rinforzo su più episodi, sviluppa la capacità di risolvere problemi che non ha mai incontrato prima - una capacità emergente chiamata Apprendimento per Rinforzo In-Contesto (ICRL). Questo potente meta-apprendista eccelle non solo nel risolvere ambienti non visti all'interno della distribuzione con notevole efficienza campionaria, ma mostra anche una forte performance in ambienti fuori dalla distribuzione. Inoltre, mostriamo che dimostra robustezza rispetto alla qualità dei suoi dati di addestramento, unisce senza soluzione di continuità comportamenti dal suo contesto e si adatta a ambienti non stazionari. Questi comportamenti dimostrano che un trasformatore addestrato con RL può migliorare iterativamente le proprie soluzioni, rendendolo un eccellente risolutore di problemi generico.
English
What if artificial intelligence could not only solve problems for which it
was trained but also learn to teach itself to solve new problems (i.e.,
meta-learn)? In this study, we demonstrate that a pre-trained transformer
fine-tuned with reinforcement learning over multiple episodes develops the
ability to solve problems that it has never encountered before - an emergent
ability called In-Context Reinforcement Learning (ICRL). This powerful
meta-learner not only excels in solving unseen in-distribution environments
with remarkable sample efficiency, but also shows strong performance in
out-of-distribution environments. In addition, we show that it exhibits
robustness to the quality of its training data, seamlessly stitches together
behaviors from its context, and adapts to non-stationary environments. These
behaviors demonstrate that an RL-trained transformer can iteratively improve
upon its own solutions, making it an excellent general-purpose problem solver.Summary
AI-Generated Summary