ChatPaper.aiChatPaper

Aprendizaje por Refuerzo basado en Modelos sin Entrenamiento utilizando Modelos de Lenguaje Grandes

Zero-shot Model-based Reinforcement Learning using Large Language Models

October 15, 2024
Autores: Abdelhakim Benechehab, Youssef Attia El Hili, Ambroise Odonnat, Oussama Zekri, Albert Thomas, Giuseppe Paolo, Maurizio Filippone, Ievgen Redko, Balázs Kégl
cs.AI

Resumen

Las capacidades emergentes de cero disparo de los Modelos de Lenguaje Grandes (LLMs) han llevado a su aplicación en áreas que se extienden mucho más allá de las tareas de procesamiento de lenguaje natural. En el aprendizaje por refuerzo, si bien los LLMs se han utilizado ampliamente en entornos basados en texto, su integración con espacios de estado continuo sigue siendo poco estudiada. En este documento, investigamos cómo los LLMs pre-entrenados pueden ser aprovechados para predecir en contexto la dinámica de procesos de decisión de Markov continuos. Identificamos el manejo de datos multivariados y la incorporación de la señal de control como desafíos clave que limitan el potencial despliegue de los LLMs en esta configuración y proponemos el Aprendizaje Disentangled In-Context (DICL) para abordarlos. Presentamos aplicaciones de prueba de concepto en dos entornos de aprendizaje por refuerzo: evaluación de políticas basadas en modelos y aprendizaje por refuerzo fuera de política aumentado con datos, respaldado por un análisis teórico de los métodos propuestos. Nuestros experimentos demuestran además que nuestro enfoque produce estimaciones de incertidumbre bien calibradas. Publicamos el código en https://github.com/abenechehab/dicl.
English
The emerging zero-shot capabilities of Large Language Models (LLMs) have led to their applications in areas extending well beyond natural language processing tasks. In reinforcement learning, while LLMs have been extensively used in text-based environments, their integration with continuous state spaces remains understudied. In this paper, we investigate how pre-trained LLMs can be leveraged to predict in context the dynamics of continuous Markov decision processes. We identify handling multivariate data and incorporating the control signal as key challenges that limit the potential of LLMs' deployment in this setup and propose Disentangled In-Context Learning (DICL) to address them. We present proof-of-concept applications in two reinforcement learning settings: model-based policy evaluation and data-augmented off-policy reinforcement learning, supported by theoretical analysis of the proposed methods. Our experiments further demonstrate that our approach produces well-calibrated uncertainty estimates. We release the code at https://github.com/abenechehab/dicl.

Summary

AI-Generated Summary

PDF94November 16, 2024