Les grands modĂšles de langage peuvent-ils explorer en contexte ?Can large language models explore in-context?
Nous Ă©tudions dans quelle mesure les modĂšles de langage de grande taille (LLM) contemporains peuvent s'engager dans l'exploration, une capacitĂ© fondamentale en apprentissage par renforcement et en prise de dĂ©cision. Nous nous concentrons sur les performances natives des LLM existants, sans interventions de formation. Nous dĂ©ployons des LLM en tant qu'agents dans des environnements simples de bandits manchots, en spĂ©cifiant la description de l'environnement et l'historique des interactions entiĂšrement dans le contexte, c'est-Ă -dire dans l'invite du LLM. Nous expĂ©rimentons avec GPT-3.5, GPT-4 et Llama2, en utilisant une variĂ©tĂ© de conceptions d'invites, et constatons que les modĂšles ne s'engagent pas de maniĂšre robuste dans l'exploration sans interventions substantielles : i) Dans toutes nos expĂ©riences, une seule configuration a donnĂ© lieu Ă un comportement exploratoire satisfaisant : GPT-4 avec un raisonnement en chaĂźne de pensĂ©e et un historique d'interaction rĂ©sumĂ© de maniĂšre externe, prĂ©sentĂ© sous forme de statistiques suffisantes ; ii) Toutes les autres configurations n'ont pas donnĂ© lieu Ă un comportement exploratoire robuste, y compris celles avec un raisonnement en chaĂźne de pensĂ©e mais un historique non rĂ©sumĂ©. Bien que ces rĂ©sultats puissent ĂȘtre interprĂ©tĂ©s de maniĂšre positive, ils suggĂšrent que la synthĂšse externe -- qui pourrait ne pas ĂȘtre possible dans des contextes plus complexes -- est importante pour obtenir un comportement souhaitable des agents LLM. Nous concluons que des interventions algorithmiques non triviales, telles que le rĂ©glage fin ou la curation de donnĂ©es, pourraient ĂȘtre nĂ©cessaires pour renforcer les agents de dĂ©cision basĂ©s sur les LLM dans des contextes complexes.