ChatPaper.aiChatPaper

RL + Transformer = Un Solucionador de Problemas de Propósito General

RL + Transformer = A General-Purpose Problem Solver

January 24, 2025
Autores: Micah Rentschler, Jesse Roberts
cs.AI

Resumen

¿Qué pasaría si la inteligencia artificial no solo pudiera resolver problemas para los que fue entrenada, sino también aprender a enseñarse a sí misma a resolver nuevos problemas (es decir, meta-aprender)? En este estudio, demostramos que un transformer pre-entrenado, ajustado finamente con aprendizaje por refuerzo a lo largo de múltiples episodios, desarrolla la capacidad de resolver problemas que nunca ha encontrado antes, una habilidad emergente llamada Aprendizaje por Refuerzo en Contexto (ICRL). Este poderoso meta-aprendiz no solo sobresale en la resolución de entornos no vistos en distribución con una eficiencia de muestra notable, sino que también muestra un rendimiento sólido en entornos fuera de distribución. Además, demostramos que exhibe robustez ante la calidad de sus datos de entrenamiento, une sin problemas comportamientos de su contexto y se adapta a entornos no estacionarios. Estos comportamientos demuestran que un transformer entrenado con RL puede mejorar iterativamente sus propias soluciones, convirtiéndolo en un excelente solucionador de problemas de propósito general.
English
What if artificial intelligence could not only solve problems for which it was trained but also learn to teach itself to solve new problems (i.e., meta-learn)? In this study, we demonstrate that a pre-trained transformer fine-tuned with reinforcement learning over multiple episodes develops the ability to solve problems that it has never encountered before - an emergent ability called In-Context Reinforcement Learning (ICRL). This powerful meta-learner not only excels in solving unseen in-distribution environments with remarkable sample efficiency, but also shows strong performance in out-of-distribution environments. In addition, we show that it exhibits robustness to the quality of its training data, seamlessly stitches together behaviors from its context, and adapts to non-stationary environments. These behaviors demonstrate that an RL-trained transformer can iteratively improve upon its own solutions, making it an excellent general-purpose problem solver.

Summary

AI-Generated Summary

PDF282January 27, 2025