Aprendizagem por Reforço Baseada em Modelos sem Treinamento usando Modelos de Linguagem de Grande Escala
Zero-shot Model-based Reinforcement Learning using Large Language Models
October 15, 2024
Autores: Abdelhakim Benechehab, Youssef Attia El Hili, Ambroise Odonnat, Oussama Zekri, Albert Thomas, Giuseppe Paolo, Maurizio Filippone, Ievgen Redko, Balázs Kégl
cs.AI
Resumo
As emergentes capacidades de zero-shot dos Grandes Modelos de Linguagem (LLMs) levaram à sua aplicação em áreas que vão muito além das tarefas de processamento de linguagem natural. No aprendizado por reforço, embora os LLMs tenham sido amplamente utilizados em ambientes baseados em texto, sua integração com espaços de estado contínuos ainda é pouco estudada. Neste artigo, investigamos como os LLMs pré-treinados podem ser aproveitados para prever, em contexto, a dinâmica de processos de decisão de Markov contínuos. Identificamos o tratamento de dados multivariados e a incorporação do sinal de controle como desafios-chave que limitam o potencial de implementação dos LLMs nesse cenário e propomos o Aprendizado em Contexto Desembaraçado (DICL) para abordá-los. Apresentamos aplicações de prova de conceito em duas configurações de aprendizado por reforço: avaliação de política baseada em modelo e aprendizado por reforço fora de política com dados aumentados, apoiadas por análises teóricas dos métodos propostos. Nossos experimentos demonstram ainda que nossa abordagem produz estimativas de incerteza bem calibradas. Disponibilizamos o código em https://github.com/abenechehab/dicl.
English
The emerging zero-shot capabilities of Large Language Models (LLMs) have led
to their applications in areas extending well beyond natural language
processing tasks. In reinforcement learning, while LLMs have been extensively
used in text-based environments, their integration with continuous state spaces
remains understudied. In this paper, we investigate how pre-trained LLMs can be
leveraged to predict in context the dynamics of continuous Markov decision
processes. We identify handling multivariate data and incorporating the control
signal as key challenges that limit the potential of LLMs' deployment in this
setup and propose Disentangled In-Context Learning (DICL) to address them. We
present proof-of-concept applications in two reinforcement learning settings:
model-based policy evaluation and data-augmented off-policy reinforcement
learning, supported by theoretical analysis of the proposed methods. Our
experiments further demonstrate that our approach produces well-calibrated
uncertainty estimates. We release the code at
https://github.com/abenechehab/dicl.Summary
AI-Generated Summary