ChatPaper.aiChatPaper

RL + Transformer = Um Solucionador de Problemas de Uso Geral

RL + Transformer = A General-Purpose Problem Solver

January 24, 2025
Autores: Micah Rentschler, Jesse Roberts
cs.AI

Resumo

E se a inteligência artificial não apenas pudesse resolver problemas para os quais foi treinada, mas também aprender a ensinar a si mesma a resolver novos problemas (ou seja, meta-aprender)? Neste estudo, demonstramos que um transformer pré-treinado, refinado com aprendizado por reforço ao longo de vários episódios, desenvolve a capacidade de resolver problemas que nunca encontrou antes - uma habilidade emergente chamada Aprendizado por Reforço em Contexto (ICRL). Este poderoso meta-aprendiz não só se destaca na resolução de ambientes não vistos na distribuição com uma eficiência de amostragem notável, mas também apresenta um desempenho sólido em ambientes fora da distribuição. Além disso, mostramos que ele exibe robustez em relação à qualidade de seus dados de treinamento, costura de forma contínua comportamentos de seu contexto e se adapta a ambientes não estacionários. Esses comportamentos demonstram que um transformer treinado com RL pode melhorar iterativamente suas próprias soluções, tornando-o um excelente solucionador de problemas de propósito geral.
English
What if artificial intelligence could not only solve problems for which it was trained but also learn to teach itself to solve new problems (i.e., meta-learn)? In this study, we demonstrate that a pre-trained transformer fine-tuned with reinforcement learning over multiple episodes develops the ability to solve problems that it has never encountered before - an emergent ability called In-Context Reinforcement Learning (ICRL). This powerful meta-learner not only excels in solving unseen in-distribution environments with remarkable sample efficiency, but also shows strong performance in out-of-distribution environments. In addition, we show that it exhibits robustness to the quality of its training data, seamlessly stitches together behaviors from its context, and adapts to non-stationary environments. These behaviors demonstrate that an RL-trained transformer can iteratively improve upon its own solutions, making it an excellent general-purpose problem solver.

Summary

AI-Generated Summary

PDF282January 27, 2025