Evaluación de Mapas Cognitivos y Planificación en Modelos de Lenguaje a Gran Escala con CogEval
Evaluating Cognitive Maps and Planning in Large Language Models with CogEval
September 25, 2023
Autores: Ida Momennejad, Hosein Hasanbeig, Felipe Vieira, Hiteshi Sharma, Robert Osazuwa Ness, Nebojsa Jojic, Hamid Palangi, Jonathan Larson
cs.AI
Resumen
Recientemente, ha surgido una oleada de estudios que afirman la existencia de habilidades cognitivas emergentes en los modelos de lenguaje grandes (LLMs, por sus siglas en inglés). Sin embargo, la mayoría se basa en anécdotas, pasa por alto la contaminación de los conjuntos de entrenamiento o carece de una evaluación sistemática que incluya múltiples tareas, condiciones de control, iteraciones repetidas y pruebas de robustez estadística. En este trabajo, realizamos dos contribuciones principales. Primero, proponemos CogEval, un protocolo inspirado en la ciencia cognitiva para la evaluación sistemática de capacidades cognitivas en modelos de lenguaje grandes. El protocolo CogEval puede seguirse para evaluar diversas habilidades. Segundo, aquí aplicamos CogEval para evaluar sistemáticamente mapas cognitivos y la capacidad de planificación en ocho LLMs (OpenAI GPT-4, GPT-3.5-turbo-175B, davinci-003-175B, Google Bard, Cohere-xlarge-52.4B, Anthropic Claude-1-52B, LLaMA-13B y Alpaca-7B). Basamos nuestros indicadores de tareas en experimentos humanos, que ofrecen una validez de constructo establecida para evaluar la planificación y que están ausentes en los conjuntos de entrenamiento de los LLMs. Encontramos que, aunque los LLMs muestran una aparente competencia en algunas tareas de planificación con estructuras más simples, la evaluación sistemática revela modos de fallo sorprendentes en tareas de planificación, incluyendo alucinaciones de trayectorias inválidas y quedarse atrapados en bucles. Estos hallazgos no respaldan la idea de una capacidad de planificación emergente inmediata en los LLMs. Esto podría deberse a que los LLMs no comprenden las estructuras relacionales subyacentes a los problemas de planificación, conocidas como mapas cognitivos, y fallan al desplegar trayectorias dirigidas a objetivos basadas en la estructura subyacente. Se discuten las implicaciones para aplicaciones y futuras direcciones.
English
Recently an influx of studies claim emergent cognitive abilities in large
language models (LLMs). Yet, most rely on anecdotes, overlook contamination of
training sets, or lack systematic Evaluation involving multiple tasks, control
conditions, multiple iterations, and statistical robustness tests. Here we make
two major contributions. First, we propose CogEval, a cognitive
science-inspired protocol for the systematic evaluation of cognitive capacities
in Large Language Models. The CogEval protocol can be followed for the
evaluation of various abilities. Second, here we follow CogEval to
systematically evaluate cognitive maps and planning ability across eight LLMs
(OpenAI GPT-4, GPT-3.5-turbo-175B, davinci-003-175B, Google Bard,
Cohere-xlarge-52.4B, Anthropic Claude-1-52B, LLaMA-13B, and Alpaca-7B). We base
our task prompts on human experiments, which offer both established construct
validity for evaluating planning, and are absent from LLM training sets. We
find that, while LLMs show apparent competence in a few planning tasks with
simpler structures, systematic evaluation reveals striking failure modes in
planning tasks, including hallucinations of invalid trajectories and getting
trapped in loops. These findings do not support the idea of emergent
out-of-the-box planning ability in LLMs. This could be because LLMs do not
understand the latent relational structures underlying planning problems, known
as cognitive maps, and fail at unrolling goal-directed trajectories based on
the underlying structure. Implications for application and future directions
are discussed.