Liberando el Poder de los Modelos de Lenguaje Preentrenados para el Aprendizaje por Refuerzo Offline

Resumen

El aprendizaje por refuerzo offline (RL, por sus siglas en inglés) tiene como objetivo encontrar una política casi óptima utilizando conjuntos de datos previamente recolectados. En escenarios del mundo real, la recopilación de datos puede ser costosa y riesgosa; por lo tanto, el RL offline se vuelve particularmente desafiante cuando los datos dentro del dominio son limitados. Dados los avances recientes en los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) y su capacidad de aprendizaje con pocos ejemplos, este artículo presenta Language Models for Motion Control (LaMo), un marco general basado en Transformadores de Decisión para utilizar eficazmente Modelos de Lenguaje (LMs) preentrenados en RL offline. Nuestro marco destaca cuatro componentes cruciales: (1) Inicializar Transformadores de Decisión con LMs preentrenados secuencialmente, (2) emplear el método de ajuste fino LoRA, en contraste con el ajuste fino de todos los pesos, para combinar efectivamente el conocimiento preentrenado de los LMs y el conocimiento dentro del dominio, (3) utilizar la transformación no lineal MLP en lugar de proyecciones lineales para generar incrustaciones, y (4) integrar una pérdida auxiliar de predicción de lenguaje durante el ajuste fino para estabilizar los LMs y conservar sus habilidades originales en lenguaje. Los resultados empíricos indican que LaMo alcanza un rendimiento de vanguardia en tareas de recompensa escasa y reduce la brecha entre los métodos de RL offline basados en valor y los transformadores de decisión en tareas de recompensa densa. En particular, nuestro método demuestra un rendimiento superior en escenarios con muestras de datos limitadas. Nuestro sitio web del proyecto es https://lamo2023.github.io.

English

Offline reinforcement learning (RL) aims to find a near-optimal policy using pre-collected datasets. In real-world scenarios, data collection could be costly and risky; therefore, offline RL becomes particularly challenging when the in-domain data is limited. Given recent advances in Large Language Models (LLMs) and their few-shot learning prowess, this paper introduces Language Models for Motion Control (LaMo), a general framework based on Decision Transformers to effectively use pre-trained Language Models (LMs) for offline RL. Our framework highlights four crucial components: (1) Initializing Decision Transformers with sequentially pre-trained LMs, (2) employing the LoRA fine-tuning method, in contrast to full-weight fine-tuning, to combine the pre-trained knowledge from LMs and in-domain knowledge effectively, (3) using the non-linear MLP transformation instead of linear projections, to generate embeddings, and (4) integrating an auxiliary language prediction loss during fine-tuning to stabilize the LMs and retain their original abilities on languages. Empirical results indicate LaMo achieves state-of-the-art performance in sparse-reward tasks and closes the gap between value-based offline RL methods and decision transformers in dense-reward tasks. In particular, our method demonstrates superior performance in scenarios with limited data samples. Our project website is https://lamo2023.github.io

Liberando el Poder de los Modelos de Lenguaje Preentrenados para el Aprendizaje por Refuerzo Offline

Unleashing the Power of Pre-trained Language Models for Offline Reinforcement Learning

Resumen

Support