ChatPaper.aiChatPaper

Kunnen grote taalmodellen in-context verkennen?

Can large language models explore in-context?

March 22, 2024
Auteurs: Akshay Krishnamurthy, Keegan Harris, Dylan J. Foster, Cyril Zhang, Aleksandrs Slivkins
cs.AI

Samenvatting

We onderzoeken in hoeverre hedendaagse Large Language Models (LLMs) kunnen deelnemen aan exploratie, een kernvaardigheid in reinforcement learning en besluitvorming. We richten ons op de native prestaties van bestaande LLMs, zonder trainingsinterventies. We zetten LLMs in als agents in eenvoudige multi-armed bandit-omgevingen, waarbij we de omgevingsbeschrijving en interactiegeschiedenis volledig in-context specificeren, d.w.z. binnen de LLM-prompt. We experimenteren met GPT-3.5, GPT-4 en Llama2, met behulp van verschillende promptontwerpen, en ontdekken dat de modellen niet robuust aan exploratie deelnemen zonder substantiële interventies: i) In al onze experimenten resulteerde slechts één configuratie in bevredigend exploratief gedrag: GPT-4 met chain-of-thought redenering en een extern samengevatte interactiegeschiedenis, gepresenteerd als voldoende statistieken; ii) Alle andere configuraties resulteerden niet in robuust exploratief gedrag, inclusief die met chain-of-thought redenering maar ongesamenvatte geschiedenis. Hoewel deze bevindingen positief geïnterpreteerd kunnen worden, suggereren ze dat externe samenvatting – wat in complexere situaties mogelijk niet haalbaar is – belangrijk is om gewenst gedrag van LLM-agents te verkrijgen. We concluderen dat niet-triviale algoritmische interventies, zoals fine-tuning of datasetcuratie, mogelijk nodig zijn om LLM-gebaseerde besluitvormingsagents in complexe situaties te empoweren.
English
We investigate the extent to which contemporary Large Language Models (LLMs) can engage in exploration, a core capability in reinforcement learning and decision making. We focus on native performance of existing LLMs, without training interventions. We deploy LLMs as agents in simple multi-armed bandit environments, specifying the environment description and interaction history entirely in-context, i.e., within the LLM prompt. We experiment with GPT-3.5, GPT-4, and Llama2, using a variety of prompt designs, and find that the models do not robustly engage in exploration without substantial interventions: i) Across all of our experiments, only one configuration resulted in satisfactory exploratory behavior: GPT-4 with chain-of-thought reasoning and an externally summarized interaction history, presented as sufficient statistics; ii) All other configurations did not result in robust exploratory behavior, including those with chain-of-thought reasoning but unsummarized history. Although these findings can be interpreted positively, they suggest that external summarization -- which may not be possible in more complex settings -- is important for obtaining desirable behavior from LLM agents. We conclude that non-trivial algorithmic interventions, such as fine-tuning or dataset curation, may be required to empower LLM-based decision making agents in complex settings.
PDF332December 15, 2024