ChatPaper.aiChatPaper

RL + Трансформер = Общецелевой решатель проблем

RL + Transformer = A General-Purpose Problem Solver

January 24, 2025
Авторы: Micah Rentschler, Jesse Roberts
cs.AI

Аннотация

Что если искусственный интеллект смог бы не только решать задачи, для которых он был обучен, но также научиться самостоятельно учиться решать новые задачи (т.е. мета-обучение)? В данном исследовании мы демонстрируем, что предварительно обученный трансформер, донастроенный с помощью обучения с подкреплением на протяжении нескольких эпизодов, развивает способность решать задачи, с которыми он никогда ранее не сталкивался - вновь возникающая способность, называемая Обучением с подкреплением в контексте (ICRL). Этот мощный мета-обучающийся не только превосходит в решении невидимых внутри распределения сред с замечательной эффективностью использования выборки, но также проявляет высокую производительность в средах вне распределения. Кроме того, мы показываем, что он обладает устойчивостью к качеству своих обучающих данных, плавно объединяет поведения из своего контекста и адаптируется к нестационарным средам. Эти поведения демонстрируют, что трансформер, обученный с помощью обучения с подкреплением, может итеративно улучшать свои собственные решения, что делает его отличным универсальным решателем проблем.
English
What if artificial intelligence could not only solve problems for which it was trained but also learn to teach itself to solve new problems (i.e., meta-learn)? In this study, we demonstrate that a pre-trained transformer fine-tuned with reinforcement learning over multiple episodes develops the ability to solve problems that it has never encountered before - an emergent ability called In-Context Reinforcement Learning (ICRL). This powerful meta-learner not only excels in solving unseen in-distribution environments with remarkable sample efficiency, but also shows strong performance in out-of-distribution environments. In addition, we show that it exhibits robustness to the quality of its training data, seamlessly stitches together behaviors from its context, and adapts to non-stationary environments. These behaviors demonstrate that an RL-trained transformer can iteratively improve upon its own solutions, making it an excellent general-purpose problem solver.

Summary

AI-Generated Summary

PDF282January 27, 2025