Раскрытие потенциала предварительно обученных языковых моделей для оффлайн-обучения с подкреплением
Unleashing the Power of Pre-trained Language Models for Offline Reinforcement Learning
October 31, 2023
Авторы: Ruizhe Shi, Yuyao Liu, Yanjie Ze, Simon S. Du, Huazhe Xu
cs.AI
Аннотация
Оффлайн-обучение с подкреплением (RL) ставит своей целью нахождение близкой к оптимальной политики с использованием заранее собранных наборов данных. В реальных сценариях сбор данных может быть дорогостоящим и рискованным; поэтому оффлайн RL становится особенно сложным, когда данные в целевой области ограничены. Учитывая последние достижения в области больших языковых моделей (LLM) и их способность к обучению с малым количеством примеров, в данной статье представлена система Language Models for Motion Control (LaMo) — общий фреймворк, основанный на Decision Transformers, для эффективного использования предварительно обученных языковых моделей (LM) в оффлайн RL. Наш фреймворк выделяет четыре ключевых компонента: (1) инициализация Decision Transformers с помощью последовательно предварительно обученных LM, (2) использование метода тонкой настройки LoRA, в отличие от полной тонкой настройки, для эффективного объединения предварительно полученных знаний из LM и знаний в целевой области, (3) применение нелинейного преобразования MLP вместо линейных проекций для генерации эмбеддингов и (4) интеграция вспомогательной функции потерь для предсказания языка в процессе тонкой настройки для стабилизации LM и сохранения их исходных способностей в работе с языком. Экспериментальные результаты показывают, что LaMo достигает наилучших результатов в задачах с разреженным вознаграждением и сокращает разрыв между методами оффлайн RL, основанными на оценке, и Decision Transformers в задачах с плотным вознаграждением. В частности, наш метод демонстрирует превосходную производительность в сценариях с ограниченным количеством данных. Сайт проекта доступен по адресу: https://lamo2023.github.io.
English
Offline reinforcement learning (RL) aims to find a near-optimal policy using
pre-collected datasets. In real-world scenarios, data collection could be
costly and risky; therefore, offline RL becomes particularly challenging when
the in-domain data is limited. Given recent advances in Large Language Models
(LLMs) and their few-shot learning prowess, this paper introduces
Language Models for Motion Control (LaMo), a
general framework based on Decision Transformers to effectively use pre-trained
Language Models (LMs) for offline RL. Our framework highlights four crucial
components: (1) Initializing Decision Transformers with sequentially
pre-trained LMs, (2) employing the LoRA fine-tuning method, in contrast to
full-weight fine-tuning, to combine the pre-trained knowledge from LMs and
in-domain knowledge effectively, (3) using the non-linear MLP transformation
instead of linear projections, to generate embeddings, and (4) integrating an
auxiliary language prediction loss during fine-tuning to stabilize the LMs and
retain their original abilities on languages. Empirical results indicate
LaMo achieves state-of-the-art performance in sparse-reward tasks
and closes the gap between value-based offline RL methods and decision
transformers in dense-reward tasks. In particular, our method demonstrates
superior performance in scenarios with limited data samples. Our project
website is https://lamo2023.github.io