ChatPaper.aiChatPaper

Evaluatie van Cognitieve Kaarten en Planning in Grote Taalmodellen met CogEval

Evaluating Cognitive Maps and Planning in Large Language Models with CogEval

September 25, 2023
Auteurs: Ida Momennejad, Hosein Hasanbeig, Felipe Vieira, Hiteshi Sharma, Robert Osazuwa Ness, Nebojsa Jojic, Hamid Palangi, Jonathan Larson
cs.AI

Samenvatting

Recentelijk is er een toestroom van studies die claimen dat grote taalmmodellen (LLMs) opkomende cognitieve vaardigheden vertonen. Toch baseren de meeste zich op anekdotes, negeren ze mogelijke contaminatie van trainingssets, of ontbreekt het aan systematische evaluatie met meerdere taken, controlecondities, meerdere iteraties en statistische robuustheidstests. Hier doen we twee belangrijke bijdragen. Ten eerste stellen we CogEval voor, een protocol geïnspireerd op de cognitieve wetenschap voor de systematische evaluatie van cognitieve capaciteiten in grote taalmmodellen. Het CogEval-protocol kan worden gevolgd voor de evaluatie van diverse vaardigheden. Ten tweede passen we CogEval hier toe om systematisch cognitieve kaarten en planningsvaardigheden te evalueren in acht LLMs (OpenAI GPT-4, GPT-3.5-turbo-175B, davinci-003-175B, Google Bard, Cohere-xlarge-52.4B, Anthropic Claude-1-52B, LLaMA-13B en Alpaca-7B). Onze taakprompts zijn gebaseerd op menselijke experimenten, die zowel gevestigde constructvaliditeit bieden voor het evalueren van planning, als afwezig zijn in de trainingssets van LLMs. We constateren dat, hoewel LLMs schijnbare competentie vertonen in enkele plannings taken met eenvoudigere structuren, systematische evaluatie opvallende foutmodi in plannings taken aan het licht brengt, waaronder hallucinaties van ongeldige trajecten en vastlopen in loops. Deze bevindingen ondersteunen niet het idee van opkomende out-of-the-box planningsvaardigheden in LLMs. Dit zou kunnen komen doordat LLMs de onderliggende relationele structuren van planningsproblemen, bekend als cognitieve kaarten, niet begrijpen en falen in het uitrollen van doelgerichte trajecten op basis van de onderliggende structuur. Implicaties voor toepassingen en toekomstige richtingen worden besproken.
English
Recently an influx of studies claim emergent cognitive abilities in large language models (LLMs). Yet, most rely on anecdotes, overlook contamination of training sets, or lack systematic Evaluation involving multiple tasks, control conditions, multiple iterations, and statistical robustness tests. Here we make two major contributions. First, we propose CogEval, a cognitive science-inspired protocol for the systematic evaluation of cognitive capacities in Large Language Models. The CogEval protocol can be followed for the evaluation of various abilities. Second, here we follow CogEval to systematically evaluate cognitive maps and planning ability across eight LLMs (OpenAI GPT-4, GPT-3.5-turbo-175B, davinci-003-175B, Google Bard, Cohere-xlarge-52.4B, Anthropic Claude-1-52B, LLaMA-13B, and Alpaca-7B). We base our task prompts on human experiments, which offer both established construct validity for evaluating planning, and are absent from LLM training sets. We find that, while LLMs show apparent competence in a few planning tasks with simpler structures, systematic evaluation reveals striking failure modes in planning tasks, including hallucinations of invalid trajectories and getting trapped in loops. These findings do not support the idea of emergent out-of-the-box planning ability in LLMs. This could be because LLMs do not understand the latent relational structures underlying planning problems, known as cognitive maps, and fail at unrolling goal-directed trajectories based on the underlying structure. Implications for application and future directions are discussed.
PDF71February 8, 2026