Liberando el Poder de los Modelos de Lenguaje Preentrenados para el Aprendizaje por Refuerzo Offline
Unleashing the Power of Pre-trained Language Models for Offline Reinforcement Learning
October 31, 2023
Autores: Ruizhe Shi, Yuyao Liu, Yanjie Ze, Simon S. Du, Huazhe Xu
cs.AI
Resumen
El aprendizaje por refuerzo offline (RL, por sus siglas en inglés) tiene como objetivo encontrar una política casi óptima utilizando conjuntos de datos previamente recolectados. En escenarios del mundo real, la recopilación de datos puede ser costosa y riesgosa; por lo tanto, el RL offline se vuelve particularmente desafiante cuando los datos dentro del dominio son limitados. Dados los avances recientes en los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) y su capacidad de aprendizaje con pocos ejemplos, este artículo presenta Language Models for Motion Control (LaMo), un marco general basado en Transformadores de Decisión para utilizar eficazmente Modelos de Lenguaje (LMs) preentrenados en RL offline. Nuestro marco destaca cuatro componentes cruciales: (1) Inicializar Transformadores de Decisión con LMs preentrenados secuencialmente, (2) emplear el método de ajuste fino LoRA, en contraste con el ajuste fino de todos los pesos, para combinar efectivamente el conocimiento preentrenado de los LMs y el conocimiento dentro del dominio, (3) utilizar la transformación no lineal MLP en lugar de proyecciones lineales para generar incrustaciones, y (4) integrar una pérdida auxiliar de predicción de lenguaje durante el ajuste fino para estabilizar los LMs y conservar sus habilidades originales en lenguaje. Los resultados empíricos indican que LaMo alcanza un rendimiento de vanguardia en tareas de recompensa escasa y reduce la brecha entre los métodos de RL offline basados en valor y los transformadores de decisión en tareas de recompensa densa. En particular, nuestro método demuestra un rendimiento superior en escenarios con muestras de datos limitadas. Nuestro sitio web del proyecto es https://lamo2023.github.io.
English
Offline reinforcement learning (RL) aims to find a near-optimal policy using
pre-collected datasets. In real-world scenarios, data collection could be
costly and risky; therefore, offline RL becomes particularly challenging when
the in-domain data is limited. Given recent advances in Large Language Models
(LLMs) and their few-shot learning prowess, this paper introduces
Language Models for Motion Control (LaMo), a
general framework based on Decision Transformers to effectively use pre-trained
Language Models (LMs) for offline RL. Our framework highlights four crucial
components: (1) Initializing Decision Transformers with sequentially
pre-trained LMs, (2) employing the LoRA fine-tuning method, in contrast to
full-weight fine-tuning, to combine the pre-trained knowledge from LMs and
in-domain knowledge effectively, (3) using the non-linear MLP transformation
instead of linear projections, to generate embeddings, and (4) integrating an
auxiliary language prediction loss during fine-tuning to stabilize the LMs and
retain their original abilities on languages. Empirical results indicate
LaMo achieves state-of-the-art performance in sparse-reward tasks
and closes the gap between value-based offline RL methods and decision
transformers in dense-reward tasks. In particular, our method demonstrates
superior performance in scenarios with limited data samples. Our project
website is https://lamo2023.github.io