ChatPaper.aiChatPaper

RL + Transformer = Un Risolutore di Problemi a Uso Generale

RL + Transformer = A General-Purpose Problem Solver

January 24, 2025
Autori: Micah Rentschler, Jesse Roberts
cs.AI

Abstract

E se l'intelligenza artificiale non solo potesse risolvere problemi per i quali è stata addestrata, ma imparasse anche a insegnare a se stessa a risolvere nuovi problemi (cioè, meta-apprendimento)? In questo studio, dimostriamo che un trasformatore pre-addestrato, affinato con apprendimento per rinforzo su più episodi, sviluppa la capacità di risolvere problemi che non ha mai incontrato prima - una capacità emergente chiamata Apprendimento per Rinforzo In-Contesto (ICRL). Questo potente meta-apprendista eccelle non solo nel risolvere ambienti non visti all'interno della distribuzione con notevole efficienza campionaria, ma mostra anche una forte performance in ambienti fuori dalla distribuzione. Inoltre, mostriamo che dimostra robustezza rispetto alla qualità dei suoi dati di addestramento, unisce senza soluzione di continuità comportamenti dal suo contesto e si adatta a ambienti non stazionari. Questi comportamenti dimostrano che un trasformatore addestrato con RL può migliorare iterativamente le proprie soluzioni, rendendolo un eccellente risolutore di problemi generico.
English
What if artificial intelligence could not only solve problems for which it was trained but also learn to teach itself to solve new problems (i.e., meta-learn)? In this study, we demonstrate that a pre-trained transformer fine-tuned with reinforcement learning over multiple episodes develops the ability to solve problems that it has never encountered before - an emergent ability called In-Context Reinforcement Learning (ICRL). This powerful meta-learner not only excels in solving unseen in-distribution environments with remarkable sample efficiency, but also shows strong performance in out-of-distribution environments. In addition, we show that it exhibits robustness to the quality of its training data, seamlessly stitches together behaviors from its context, and adapts to non-stationary environments. These behaviors demonstrate that an RL-trained transformer can iteratively improve upon its own solutions, making it an excellent general-purpose problem solver.

Summary

AI-Generated Summary

PDF282January 27, 2025