Évaluation des cartes cognitives et de la planification dans les grands modèles de langage avec CogEval
Evaluating Cognitive Maps and Planning in Large Language Models with CogEval
September 25, 2023
Auteurs: Ida Momennejad, Hosein Hasanbeig, Felipe Vieira, Hiteshi Sharma, Robert Osazuwa Ness, Nebojsa Jojic, Hamid Palangi, Jonathan Larson
cs.AI
Résumé
Récemment, un afflux d'études affirme l'émergence de capacités cognitives dans les grands modèles de langage (LLM). Cependant, la plupart s'appuient sur des anecdotes, négligent la contamination des ensembles d'entraînement, ou manquent d'une évaluation systématique impliquant plusieurs tâches, des conditions de contrôle, des itérations multiples et des tests de robustesse statistique. Nous apportons ici deux contributions majeures. Premièrement, nous proposons CogEval, un protocole inspiré des sciences cognitives pour l'évaluation systématique des capacités cognitives dans les grands modèles de langage. Le protocole CogEval peut être suivi pour évaluer diverses compétences. Deuxièmement, nous suivons ici CogEval pour évaluer systématiquement les cartes cognitives et la capacité de planification à travers huit LLM (OpenAI GPT-4, GPT-3.5-turbo-175B, davinci-003-175B, Google Bard, Cohere-xlarge-52.4B, Anthropic Claude-1-52B, LLaMA-13B et Alpaca-7B). Nous basons nos prompts de tâches sur des expériences humaines, qui offrent à la fois une validité de construit établie pour évaluer la planification et sont absentes des ensembles d'entraînement des LLM. Nous constatons que, bien que les LLM montrent une compétence apparente dans quelques tâches de planification avec des structures plus simples, une évaluation systématique révèle des modes d'échec frappants dans les tâches de planification, y compris des hallucinations de trajectoires invalides et des blocages dans des boucles. Ces résultats ne soutiennent pas l'idée d'une capacité de planification émergente prête à l'emploi dans les LLM. Cela pourrait être dû au fait que les LLM ne comprennent pas les structures relationnelles latentes sous-jacentes aux problèmes de planification, connues sous le nom de cartes cognitives, et échouent à dérouler des trajectoires orientées vers un but basées sur la structure sous-jacente. Les implications pour l'application et les directions futures sont discutées.
English
Recently an influx of studies claim emergent cognitive abilities in large
language models (LLMs). Yet, most rely on anecdotes, overlook contamination of
training sets, or lack systematic Evaluation involving multiple tasks, control
conditions, multiple iterations, and statistical robustness tests. Here we make
two major contributions. First, we propose CogEval, a cognitive
science-inspired protocol for the systematic evaluation of cognitive capacities
in Large Language Models. The CogEval protocol can be followed for the
evaluation of various abilities. Second, here we follow CogEval to
systematically evaluate cognitive maps and planning ability across eight LLMs
(OpenAI GPT-4, GPT-3.5-turbo-175B, davinci-003-175B, Google Bard,
Cohere-xlarge-52.4B, Anthropic Claude-1-52B, LLaMA-13B, and Alpaca-7B). We base
our task prompts on human experiments, which offer both established construct
validity for evaluating planning, and are absent from LLM training sets. We
find that, while LLMs show apparent competence in a few planning tasks with
simpler structures, systematic evaluation reveals striking failure modes in
planning tasks, including hallucinations of invalid trajectories and getting
trapped in loops. These findings do not support the idea of emergent
out-of-the-box planning ability in LLMs. This could be because LLMs do not
understand the latent relational structures underlying planning problems, known
as cognitive maps, and fail at unrolling goal-directed trajectories based on
the underlying structure. Implications for application and future directions
are discussed.