Können große Sprachmodelle im Kontext erkunden?
Can large language models explore in-context?
March 22, 2024
Autoren: Akshay Krishnamurthy, Keegan Harris, Dylan J. Foster, Cyril Zhang, Aleksandrs Slivkins
cs.AI
Zusammenfassung
Wir untersuchen inwieweit zeitgenössische Large Language Models (LLMs) Exploration betreiben können, eine Kernfähigkeit im Bereich des Reinforcement Learning und der Entscheidungsfindung. Wir konzentrieren uns auf die natürliche Leistungsfähigkeit bestehender LLMs, ohne Trainingsinterventionen. Wir setzen LLMs als Agenten in einfachen Multi-Armed Bandit-Umgebungen ein, indem wir die Umgebungsbeschreibung und Interaktionshistorie vollständig im Kontext, d.h. innerhalb des LLM-Prompts, spezifizieren. Wir experimentieren mit GPT-3.5, GPT-4 und Llama2, unter Verwendung verschiedener Prompt-Designs, und stellen fest, dass die Modelle ohne erhebliche Interventionen nicht robust Exploration betreiben: i) In all unseren Experimenten führte nur eine Konfiguration zu zufriedenstellendem explorativem Verhalten: GPT-4 mit Chain-of-Thought-Reasoning und einer extern zusammengefassten Interaktionshistorie, präsentiert als hinreichende Statistiken; ii) Alle anderen Konfigurationen führten nicht zu robustem explorativem Verhalten, einschließlich derjenigen mit Chain-of-Thought-Reasoning, aber unzusammengefasster Historie. Obwohl diese Ergebnisse positiv interpretiert werden können, legen sie nahe, dass externe Zusammenfassung - die möglicherweise in komplexeren Umgebungen nicht möglich ist - wichtig ist, um wünschenswertes Verhalten von LLM-Agenten zu erhalten. Wir kommen zu dem Schluss, dass nicht-triviale algorithmische Interventionen, wie Feinabstimmung oder Datensatzkuratierung, erforderlich sein können, um LLM-basierte Entscheidungsagenten in komplexen Umgebungen zu stärken.
English
We investigate the extent to which contemporary Large Language Models (LLMs)
can engage in exploration, a core capability in reinforcement learning and
decision making. We focus on native performance of existing LLMs, without
training interventions. We deploy LLMs as agents in simple multi-armed bandit
environments, specifying the environment description and interaction history
entirely in-context, i.e., within the LLM prompt. We experiment with GPT-3.5,
GPT-4, and Llama2, using a variety of prompt designs, and find that the models
do not robustly engage in exploration without substantial interventions: i)
Across all of our experiments, only one configuration resulted in satisfactory
exploratory behavior: GPT-4 with chain-of-thought reasoning and an externally
summarized interaction history, presented as sufficient statistics; ii) All
other configurations did not result in robust exploratory behavior, including
those with chain-of-thought reasoning but unsummarized history. Although these
findings can be interpreted positively, they suggest that external
summarization -- which may not be possible in more complex settings -- is
important for obtaining desirable behavior from LLM agents. We conclude that
non-trivial algorithmic interventions, such as fine-tuning or dataset curation,
may be required to empower LLM-based decision making agents in complex
settings.Summary
AI-Generated Summary