Avaliação de Mapas Cognitivos e Planejamento em Modelos de Linguagem de Grande Escala com CogEval

Resumo

Recentemente, um influxo de estudos afirma a existência de habilidades cognitivas emergentes em modelos de linguagem de grande escala (LLMs). No entanto, a maioria se baseia em anedotas, ignora a contaminação dos conjuntos de treinamento ou carece de avaliação sistemática envolvendo múltiplas tarefas, condições de controle, várias iterações e testes de robustez estatística. Aqui, fazemos duas contribuições principais. Primeiro, propomos o CogEval, um protocolo inspirado na ciência cognitiva para a avaliação sistemática de capacidades cognitivas em Modelos de Linguagem de Grande Escala. O protocolo CogEval pode ser seguido para a avaliação de diversas habilidades. Segundo, aqui seguimos o CogEval para avaliar sistematicamente mapas cognitivos e a capacidade de planejamento em oito LLMs (OpenAI GPT-4, GPT-3.5-turbo-175B, davinci-003-175B, Google Bard, Cohere-xlarge-52.4B, Anthropic Claude-1-52B, LLaMA-13B e Alpaca-7B). Baseamos nossos prompts de tarefas em experimentos humanos, que oferecem validade de constructo estabelecida para avaliar o planejamento e estão ausentes dos conjuntos de treinamento dos LLMs. Descobrimos que, embora os LLMs demonstrem aparente competência em algumas tarefas de planejamento com estruturas mais simples, a avaliação sistemática revela modos de falha marcantes em tarefas de planejamento, incluindo alucinações de trajetórias inválidas e ficar preso em loops. Esses achados não sustentam a ideia de uma capacidade de planejamento emergente pronta para uso em LLMs. Isso pode ocorrer porque os LLMs não compreendem as estruturas relacionais latentes subjacentes aos problemas de planejamento, conhecidas como mapas cognitivos, e falham ao desdobrar trajetórias orientadas a objetivos com base na estrutura subjacente. Implicações para aplicações e direções futuras são discutidas.

English

Recently an influx of studies claim emergent cognitive abilities in large language models (LLMs). Yet, most rely on anecdotes, overlook contamination of training sets, or lack systematic Evaluation involving multiple tasks, control conditions, multiple iterations, and statistical robustness tests. Here we make two major contributions. First, we propose CogEval, a cognitive science-inspired protocol for the systematic evaluation of cognitive capacities in Large Language Models. The CogEval protocol can be followed for the evaluation of various abilities. Second, here we follow CogEval to systematically evaluate cognitive maps and planning ability across eight LLMs (OpenAI GPT-4, GPT-3.5-turbo-175B, davinci-003-175B, Google Bard, Cohere-xlarge-52.4B, Anthropic Claude-1-52B, LLaMA-13B, and Alpaca-7B). We base our task prompts on human experiments, which offer both established construct validity for evaluating planning, and are absent from LLM training sets. We find that, while LLMs show apparent competence in a few planning tasks with simpler structures, systematic evaluation reveals striking failure modes in planning tasks, including hallucinations of invalid trajectories and getting trapped in loops. These findings do not support the idea of emergent out-of-the-box planning ability in LLMs. This could be because LLMs do not understand the latent relational structures underlying planning problems, known as cognitive maps, and fail at unrolling goal-directed trajectories based on the underlying structure. Implications for application and future directions are discussed.

Avaliação de Mapas Cognitivos e Planejamento em Modelos de Linguagem de Grande Escala com CogEval

Evaluating Cognitive Maps and Planning in Large Language Models with CogEval

Resumo

Support