Können große Sprachmodelle im Kontext erkunden?Can large language models explore in-context?
Wir untersuchen inwieweit zeitgenössische Large Language Models (LLMs) Exploration betreiben können, eine Kernfähigkeit im Bereich des Reinforcement Learning und der Entscheidungsfindung. Wir konzentrieren uns auf die natürliche Leistungsfähigkeit bestehender LLMs, ohne Trainingsinterventionen. Wir setzen LLMs als Agenten in einfachen Multi-Armed Bandit-Umgebungen ein, indem wir die Umgebungsbeschreibung und Interaktionshistorie vollständig im Kontext, d.h. innerhalb des LLM-Prompts, spezifizieren. Wir experimentieren mit GPT-3.5, GPT-4 und Llama2, unter Verwendung verschiedener Prompt-Designs, und stellen fest, dass die Modelle ohne erhebliche Interventionen nicht robust Exploration betreiben: i) In all unseren Experimenten führte nur eine Konfiguration zu zufriedenstellendem explorativem Verhalten: GPT-4 mit Chain-of-Thought-Reasoning und einer extern zusammengefassten Interaktionshistorie, präsentiert als hinreichende Statistiken; ii) Alle anderen Konfigurationen führten nicht zu robustem explorativem Verhalten, einschließlich derjenigen mit Chain-of-Thought-Reasoning, aber unzusammengefasster Historie. Obwohl diese Ergebnisse positiv interpretiert werden können, legen sie nahe, dass externe Zusammenfassung - die möglicherweise in komplexeren Umgebungen nicht möglich ist - wichtig ist, um wünschenswertes Verhalten von LLM-Agenten zu erhalten. Wir kommen zu dem Schluss, dass nicht-triviale algorithmische Interventionen, wie Feinabstimmung oder Datensatzkuratierung, erforderlich sein können, um LLM-basierte Entscheidungsagenten in komplexen Umgebungen zu stärken.