ChatPaper.aiChatPaper

RL(強化学習)+Transformer = 汎用問題解決者

RL + Transformer = A General-Purpose Problem Solver

January 24, 2025
著者: Micah Rentschler, Jesse Roberts
cs.AI

要旨

もし人工知能が、訓練された問題を解決するだけでなく、新しい問題を解決するために自己教育を学ぶことができたらどうでしょうか(つまり、メタラーニング)?本研究では、複数のエピソードにわたって強化学習で微調整された事前学習済みのトランスフォーマーが、これまでに遭遇したことのない問題を解決する能力を獲得することを示します - これをIn-Context Reinforcement Learning(ICRL)と呼ぶ新たな能力です。この強力なメタラーナーは、未知の分布内環境を驚異的なサンプル効率で解決するだけでなく、分布外環境でも優れたパフォーマンスを発揮します。さらに、トレーニングデータの品質に対する頑健性、コンテキストからの振る舞いのシームレスな結合、非定常環境への適応性を示します。これらの振る舞いは、強化学習で訓練されたトランスフォーマーが自身の解決策を反復的に改善できることを示し、優れた汎用問題解決者となります。
English
What if artificial intelligence could not only solve problems for which it was trained but also learn to teach itself to solve new problems (i.e., meta-learn)? In this study, we demonstrate that a pre-trained transformer fine-tuned with reinforcement learning over multiple episodes develops the ability to solve problems that it has never encountered before - an emergent ability called In-Context Reinforcement Learning (ICRL). This powerful meta-learner not only excels in solving unseen in-distribution environments with remarkable sample efficiency, but also shows strong performance in out-of-distribution environments. In addition, we show that it exhibits robustness to the quality of its training data, seamlessly stitches together behaviors from its context, and adapts to non-stationary environments. These behaviors demonstrate that an RL-trained transformer can iteratively improve upon its own solutions, making it an excellent general-purpose problem solver.

Summary

AI-Generated Summary

PDF282January 27, 2025