Avaliação de Mapas Cognitivos e Planejamento em Modelos de Linguagem de Grande Escala com CogEval
Evaluating Cognitive Maps and Planning in Large Language Models with CogEval
September 25, 2023
Autores: Ida Momennejad, Hosein Hasanbeig, Felipe Vieira, Hiteshi Sharma, Robert Osazuwa Ness, Nebojsa Jojic, Hamid Palangi, Jonathan Larson
cs.AI
Resumo
Recentemente, um influxo de estudos afirma a existência de habilidades cognitivas emergentes em modelos de linguagem de grande escala (LLMs). No entanto, a maioria se baseia em anedotas, ignora a contaminação dos conjuntos de treinamento ou carece de avaliação sistemática envolvendo múltiplas tarefas, condições de controle, várias iterações e testes de robustez estatística. Aqui, fazemos duas contribuições principais. Primeiro, propomos o CogEval, um protocolo inspirado na ciência cognitiva para a avaliação sistemática de capacidades cognitivas em Modelos de Linguagem de Grande Escala. O protocolo CogEval pode ser seguido para a avaliação de diversas habilidades. Segundo, aqui seguimos o CogEval para avaliar sistematicamente mapas cognitivos e a capacidade de planejamento em oito LLMs (OpenAI GPT-4, GPT-3.5-turbo-175B, davinci-003-175B, Google Bard, Cohere-xlarge-52.4B, Anthropic Claude-1-52B, LLaMA-13B e Alpaca-7B). Baseamos nossos prompts de tarefas em experimentos humanos, que oferecem validade de constructo estabelecida para avaliar o planejamento e estão ausentes dos conjuntos de treinamento dos LLMs. Descobrimos que, embora os LLMs demonstrem aparente competência em algumas tarefas de planejamento com estruturas mais simples, a avaliação sistemática revela modos de falha marcantes em tarefas de planejamento, incluindo alucinações de trajetórias inválidas e ficar preso em loops. Esses achados não sustentam a ideia de uma capacidade de planejamento emergente pronta para uso em LLMs. Isso pode ocorrer porque os LLMs não compreendem as estruturas relacionais latentes subjacentes aos problemas de planejamento, conhecidas como mapas cognitivos, e falham ao desdobrar trajetórias orientadas a objetivos com base na estrutura subjacente. Implicações para aplicações e direções futuras são discutidas.
English
Recently an influx of studies claim emergent cognitive abilities in large
language models (LLMs). Yet, most rely on anecdotes, overlook contamination of
training sets, or lack systematic Evaluation involving multiple tasks, control
conditions, multiple iterations, and statistical robustness tests. Here we make
two major contributions. First, we propose CogEval, a cognitive
science-inspired protocol for the systematic evaluation of cognitive capacities
in Large Language Models. The CogEval protocol can be followed for the
evaluation of various abilities. Second, here we follow CogEval to
systematically evaluate cognitive maps and planning ability across eight LLMs
(OpenAI GPT-4, GPT-3.5-turbo-175B, davinci-003-175B, Google Bard,
Cohere-xlarge-52.4B, Anthropic Claude-1-52B, LLaMA-13B, and Alpaca-7B). We base
our task prompts on human experiments, which offer both established construct
validity for evaluating planning, and are absent from LLM training sets. We
find that, while LLMs show apparent competence in a few planning tasks with
simpler structures, systematic evaluation reveals striking failure modes in
planning tasks, including hallucinations of invalid trajectories and getting
trapped in loops. These findings do not support the idea of emergent
out-of-the-box planning ability in LLMs. This could be because LLMs do not
understand the latent relational structures underlying planning problems, known
as cognitive maps, and fail at unrolling goal-directed trajectories based on
the underlying structure. Implications for application and future directions
are discussed.