ChatPaper.aiChatPaper

Les grands modèles de langage peuvent-ils explorer en contexte ?

Can large language models explore in-context?

March 22, 2024
Auteurs: Akshay Krishnamurthy, Keegan Harris, Dylan J. Foster, Cyril Zhang, Aleksandrs Slivkins
cs.AI

Résumé

Nous étudions dans quelle mesure les modèles de langage de grande taille (LLM) contemporains peuvent s'engager dans l'exploration, une capacité fondamentale en apprentissage par renforcement et en prise de décision. Nous nous concentrons sur les performances natives des LLM existants, sans interventions de formation. Nous déployons des LLM en tant qu'agents dans des environnements simples de bandits manchots, en spécifiant la description de l'environnement et l'historique des interactions entièrement dans le contexte, c'est-à-dire dans l'invite du LLM. Nous expérimentons avec GPT-3.5, GPT-4 et Llama2, en utilisant une variété de conceptions d'invites, et constatons que les modèles ne s'engagent pas de manière robuste dans l'exploration sans interventions substantielles : i) Dans toutes nos expériences, une seule configuration a donné lieu à un comportement exploratoire satisfaisant : GPT-4 avec un raisonnement en chaîne de pensée et un historique d'interaction résumé de manière externe, présenté sous forme de statistiques suffisantes ; ii) Toutes les autres configurations n'ont pas donné lieu à un comportement exploratoire robuste, y compris celles avec un raisonnement en chaîne de pensée mais un historique non résumé. Bien que ces résultats puissent être interprétés de manière positive, ils suggèrent que la synthèse externe -- qui pourrait ne pas être possible dans des contextes plus complexes -- est importante pour obtenir un comportement souhaitable des agents LLM. Nous concluons que des interventions algorithmiques non triviales, telles que le réglage fin ou la curation de données, pourraient être nécessaires pour renforcer les agents de décision basés sur les LLM dans des contextes complexes.
English
We investigate the extent to which contemporary Large Language Models (LLMs) can engage in exploration, a core capability in reinforcement learning and decision making. We focus on native performance of existing LLMs, without training interventions. We deploy LLMs as agents in simple multi-armed bandit environments, specifying the environment description and interaction history entirely in-context, i.e., within the LLM prompt. We experiment with GPT-3.5, GPT-4, and Llama2, using a variety of prompt designs, and find that the models do not robustly engage in exploration without substantial interventions: i) Across all of our experiments, only one configuration resulted in satisfactory exploratory behavior: GPT-4 with chain-of-thought reasoning and an externally summarized interaction history, presented as sufficient statistics; ii) All other configurations did not result in robust exploratory behavior, including those with chain-of-thought reasoning but unsummarized history. Although these findings can be interpreted positively, they suggest that external summarization -- which may not be possible in more complex settings -- is important for obtaining desirable behavior from LLM agents. We conclude that non-trivial algorithmic interventions, such as fine-tuning or dataset curation, may be required to empower LLM-based decision making agents in complex settings.

Summary

AI-Generated Summary

PDF342December 15, 2024