Bewertung kognitiver Karten und Planung in großen Sprachmodellen mit CogEval
Evaluating Cognitive Maps and Planning in Large Language Models with CogEval
September 25, 2023
Autoren: Ida Momennejad, Hosein Hasanbeig, Felipe Vieira, Hiteshi Sharma, Robert Osazuwa Ness, Nebojsa Jojic, Hamid Palangi, Jonathan Larson
cs.AI
Zusammenfassung
In letzter Zeit gibt es eine Flut von Studien, die auf emergente kognitive Fähigkeiten in großen Sprachmodellen (LLMs) hinweisen. Die meisten stützen sich jedoch auf Anekdoten, übersehen die Kontamination von Trainingsdatensätzen oder mangelt es an systematischen Evaluierungen, die mehrere Aufgaben, Kontrollbedingungen, mehrere Iterationen und statistische Robustheitstests umfassen. Hier leisten wir zwei wesentliche Beiträge. Erstens schlagen wir CogEval vor, ein kognitionswissenschaftlich inspiriertes Protokoll zur systematischen Bewertung kognitiver Fähigkeiten in großen Sprachmodellen. Das CogEval-Protokoll kann für die Bewertung verschiedener Fähigkeiten verwendet werden. Zweitens wenden wir hier CogEval an, um kognitive Karten und Planungsfähigkeiten systematisch über acht LLMs zu evaluieren (OpenAI GPT-4, GPT-3.5-turbo-175B, davinci-003-175B, Google Bard, Cohere-xlarge-52.4B, Anthropic Claude-1-52B, LLaMA-13B und Alpaca-7B). Unsere Aufgabenprompts basieren auf menschlichen Experimenten, die sowohl eine etablierte Konstruktvalidität für die Bewertung von Planung bieten als auch in den Trainingsdatensätzen der LLMs nicht vorkommen. Wir stellen fest, dass LLMs zwar in einigen Planungsaufgaben mit einfacheren Strukturen scheinbare Kompetenz zeigen, aber die systematische Bewertung auffällige Fehlermodi in Planungsaufgaben offenbart, einschließlich Halluzinationen ungültiger Trajektorien und dem Feststecken in Schleifen. Diese Ergebnisse unterstützen nicht die Idee einer emergenten, sofort verfügbaren Planungsfähigkeit in LLMs. Dies könnte daran liegen, dass LLMs die latenten relationalen Strukturen, die Planungsproblemen zugrunde liegen, sogenannte kognitive Karten, nicht verstehen und daran scheitern, zielgerichtete Trajektorien basierend auf der zugrunde liegenden Struktur zu entfalten. Implikationen für Anwendungen und zukünftige Richtungen werden diskutiert.
English
Recently an influx of studies claim emergent cognitive abilities in large
language models (LLMs). Yet, most rely on anecdotes, overlook contamination of
training sets, or lack systematic Evaluation involving multiple tasks, control
conditions, multiple iterations, and statistical robustness tests. Here we make
two major contributions. First, we propose CogEval, a cognitive
science-inspired protocol for the systematic evaluation of cognitive capacities
in Large Language Models. The CogEval protocol can be followed for the
evaluation of various abilities. Second, here we follow CogEval to
systematically evaluate cognitive maps and planning ability across eight LLMs
(OpenAI GPT-4, GPT-3.5-turbo-175B, davinci-003-175B, Google Bard,
Cohere-xlarge-52.4B, Anthropic Claude-1-52B, LLaMA-13B, and Alpaca-7B). We base
our task prompts on human experiments, which offer both established construct
validity for evaluating planning, and are absent from LLM training sets. We
find that, while LLMs show apparent competence in a few planning tasks with
simpler structures, systematic evaluation reveals striking failure modes in
planning tasks, including hallucinations of invalid trajectories and getting
trapped in loops. These findings do not support the idea of emergent
out-of-the-box planning ability in LLMs. This could be because LLMs do not
understand the latent relational structures underlying planning problems, known
as cognitive maps, and fail at unrolling goal-directed trajectories based on
the underlying structure. Implications for application and future directions
are discussed.