Modelos de linguagem de grande escala podem explorar em contexto?
Can large language models explore in-context?
March 22, 2024
Autores: Akshay Krishnamurthy, Keegan Harris, Dylan J. Foster, Cyril Zhang, Aleksandrs Slivkins
cs.AI
Resumo
Investigamos até que ponto os modelos de linguagem de grande escala (LLMs) contemporâneos podem se engajar em exploração, uma capacidade fundamental no aprendizado por reforço e na tomada de decisões. Nos concentramos no desempenho nativo dos LLMs existentes, sem intervenções de treinamento. Implantamos LLMs como agentes em ambientes simples de bandido multi-armado, especificando a descrição do ambiente e o histórico de interação inteiramente em contexto, ou seja, dentro do prompt do LLM. Realizamos experimentos com GPT-3.5, GPT-4 e Llama2, utilizando uma variedade de designs de prompt, e descobrimos que os modelos não se engajam de forma robusta em exploração sem intervenções substanciais: i) Em todos os nossos experimentos, apenas uma configuração resultou em comportamento exploratório satisfatório: GPT-4 com raciocínio em cadeia de pensamento e um histórico de interação resumido externamente, apresentado como estatísticas suficientes; ii) Todas as outras configurações não resultaram em comportamento exploratório robusto, incluindo aquelas com raciocínio em cadeia de pensamento, mas com histórico não resumido. Embora essas descobertas possam ser interpretadas positivamente, elas sugerem que a sumarização externa -- que pode não ser viável em cenários mais complexos -- é importante para obter comportamentos desejáveis de agentes baseados em LLMs. Concluímos que intervenções algorítmicas não triviais, como ajuste fino ou curadoria de dados, podem ser necessárias para capacitar agentes de tomada de decisão baseados em LLMs em cenários complexos.
English
We investigate the extent to which contemporary Large Language Models (LLMs)
can engage in exploration, a core capability in reinforcement learning and
decision making. We focus on native performance of existing LLMs, without
training interventions. We deploy LLMs as agents in simple multi-armed bandit
environments, specifying the environment description and interaction history
entirely in-context, i.e., within the LLM prompt. We experiment with GPT-3.5,
GPT-4, and Llama2, using a variety of prompt designs, and find that the models
do not robustly engage in exploration without substantial interventions: i)
Across all of our experiments, only one configuration resulted in satisfactory
exploratory behavior: GPT-4 with chain-of-thought reasoning and an externally
summarized interaction history, presented as sufficient statistics; ii) All
other configurations did not result in robust exploratory behavior, including
those with chain-of-thought reasoning but unsummarized history. Although these
findings can be interpreted positively, they suggest that external
summarization -- which may not be possible in more complex settings -- is
important for obtaining desirable behavior from LLM agents. We conclude that
non-trivial algorithmic interventions, such as fine-tuning or dataset curation,
may be required to empower LLM-based decision making agents in complex
settings.