Modelos de linguagem de grande escala podem explorar em contexto?

Resumo

Investigamos até que ponto os modelos de linguagem de grande escala (LLMs) contemporâneos podem se engajar em exploração, uma capacidade fundamental no aprendizado por reforço e na tomada de decisões. Nos concentramos no desempenho nativo dos LLMs existentes, sem intervenções de treinamento. Implantamos LLMs como agentes em ambientes simples de bandido multi-armado, especificando a descrição do ambiente e o histórico de interação inteiramente em contexto, ou seja, dentro do prompt do LLM. Realizamos experimentos com GPT-3.5, GPT-4 e Llama2, utilizando uma variedade de designs de prompt, e descobrimos que os modelos não se engajam de forma robusta em exploração sem intervenções substanciais: i) Em todos os nossos experimentos, apenas uma configuração resultou em comportamento exploratório satisfatório: GPT-4 com raciocínio em cadeia de pensamento e um histórico de interação resumido externamente, apresentado como estatísticas suficientes; ii) Todas as outras configurações não resultaram em comportamento exploratório robusto, incluindo aquelas com raciocínio em cadeia de pensamento, mas com histórico não resumido. Embora essas descobertas possam ser interpretadas positivamente, elas sugerem que a sumarização externa -- que pode não ser viável em cenários mais complexos -- é importante para obter comportamentos desejáveis de agentes baseados em LLMs. Concluímos que intervenções algorítmicas não triviais, como ajuste fino ou curadoria de dados, podem ser necessárias para capacitar agentes de tomada de decisão baseados em LLMs em cenários complexos.

English

We investigate the extent to which contemporary Large Language Models (LLMs) can engage in exploration, a core capability in reinforcement learning and decision making. We focus on native performance of existing LLMs, without training interventions. We deploy LLMs as agents in simple multi-armed bandit environments, specifying the environment description and interaction history entirely in-context, i.e., within the LLM prompt. We experiment with GPT-3.5, GPT-4, and Llama2, using a variety of prompt designs, and find that the models do not robustly engage in exploration without substantial interventions: i) Across all of our experiments, only one configuration resulted in satisfactory exploratory behavior: GPT-4 with chain-of-thought reasoning and an externally summarized interaction history, presented as sufficient statistics; ii) All other configurations did not result in robust exploratory behavior, including those with chain-of-thought reasoning but unsummarized history. Although these findings can be interpreted positively, they suggest that external summarization -- which may not be possible in more complex settings -- is important for obtaining desirable behavior from LLM agents. We conclude that non-trivial algorithmic interventions, such as fine-tuning or dataset curation, may be required to empower LLM-based decision making agents in complex settings.

Modelos de linguagem de grande escala podem explorar em contexto?

Can large language models explore in-context?

Resumo

Support