Aprendizaje por Refuerzo basado en Modelos sin Entrenamiento utilizando Modelos de Lenguaje Grandes
Zero-shot Model-based Reinforcement Learning using Large Language Models
October 15, 2024
Autores: Abdelhakim Benechehab, Youssef Attia El Hili, Ambroise Odonnat, Oussama Zekri, Albert Thomas, Giuseppe Paolo, Maurizio Filippone, Ievgen Redko, Balázs Kégl
cs.AI
Resumen
Las capacidades emergentes de cero disparo de los Modelos de Lenguaje Grandes (LLMs) han llevado a su aplicación en áreas que se extienden mucho más allá de las tareas de procesamiento de lenguaje natural. En el aprendizaje por refuerzo, si bien los LLMs se han utilizado ampliamente en entornos basados en texto, su integración con espacios de estado continuo sigue siendo poco estudiada. En este documento, investigamos cómo los LLMs pre-entrenados pueden ser aprovechados para predecir en contexto la dinámica de procesos de decisión de Markov continuos. Identificamos el manejo de datos multivariados y la incorporación de la señal de control como desafíos clave que limitan el potencial despliegue de los LLMs en esta configuración y proponemos el Aprendizaje Disentangled In-Context (DICL) para abordarlos. Presentamos aplicaciones de prueba de concepto en dos entornos de aprendizaje por refuerzo: evaluación de políticas basadas en modelos y aprendizaje por refuerzo fuera de política aumentado con datos, respaldado por un análisis teórico de los métodos propuestos. Nuestros experimentos demuestran además que nuestro enfoque produce estimaciones de incertidumbre bien calibradas. Publicamos el código en https://github.com/abenechehab/dicl.
English
The emerging zero-shot capabilities of Large Language Models (LLMs) have led
to their applications in areas extending well beyond natural language
processing tasks. In reinforcement learning, while LLMs have been extensively
used in text-based environments, their integration with continuous state spaces
remains understudied. In this paper, we investigate how pre-trained LLMs can be
leveraged to predict in context the dynamics of continuous Markov decision
processes. We identify handling multivariate data and incorporating the control
signal as key challenges that limit the potential of LLMs' deployment in this
setup and propose Disentangled In-Context Learning (DICL) to address them. We
present proof-of-concept applications in two reinforcement learning settings:
model-based policy evaluation and data-augmented off-policy reinforcement
learning, supported by theoretical analysis of the proposed methods. Our
experiments further demonstrate that our approach produces well-calibrated
uncertainty estimates. We release the code at
https://github.com/abenechehab/dicl.Summary
AI-Generated Summary