Valutazione delle Mappe Cognitive e della Pianificazione nei Modelli Linguistici di Grande Scala con CogEval
Evaluating Cognitive Maps and Planning in Large Language Models with CogEval
September 25, 2023
Autori: Ida Momennejad, Hosein Hasanbeig, Felipe Vieira, Hiteshi Sharma, Robert Osazuwa Ness, Nebojsa Jojic, Hamid Palangi, Jonathan Larson
cs.AI
Abstract
Recentemente, un'ondata di studi ha affermato l'emergere di abilità cognitive nei grandi modelli linguistici (LLM). Tuttavia, la maggior parte si basa su aneddoti, trascura la contaminazione dei set di addestramento o manca di una valutazione sistematica che coinvolga più compiti, condizioni di controllo, iterazioni multiple e test di robustezza statistica. In questo lavoro, forniamo due contributi principali. In primo luogo, proponiamo CogEval, un protocollo ispirato alle scienze cognitive per la valutazione sistematica delle capacità cognitive nei grandi modelli linguistici. Il protocollo CogEval può essere seguito per valutare varie abilità. In secondo luogo, qui seguiamo CogEval per valutare sistematicamente le mappe cognitive e l'abilità di pianificazione in otto LLM (OpenAI GPT-4, GPT-3.5-turbo-175B, davinci-003-175B, Google Bard, Cohere-xlarge-52.4B, Anthropic Claude-1-52B, LLaMA-13B e Alpaca-7B). Basiamo i nostri prompt di compito su esperimenti umani, che offrono sia una validità di costrutto consolidata per valutare la pianificazione, sia l'assenza dai set di addestramento degli LLM. Scopriamo che, sebbene gli LLM mostrino una competenza apparente in alcuni compiti di pianificazione con strutture più semplici, una valutazione sistematica rivela modalità di fallimento sorprendenti nei compiti di pianificazione, tra cui allucinazioni di traiettorie non valide e il rimanere intrappolati in cicli. Questi risultati non supportano l'idea di un'abilità di pianificazione emergente "pronta all'uso" negli LLM. Ciò potrebbe essere dovuto al fatto che gli LLM non comprendono le strutture relazionali latenti sottostanti ai problemi di pianificazione, note come mappe cognitive, e falliscono nel dispiegare traiettorie orientate agli obiettivi basate sulla struttura sottostante. Vengono discusse le implicazioni per l'applicazione e le direzioni future.
English
Recently an influx of studies claim emergent cognitive abilities in large
language models (LLMs). Yet, most rely on anecdotes, overlook contamination of
training sets, or lack systematic Evaluation involving multiple tasks, control
conditions, multiple iterations, and statistical robustness tests. Here we make
two major contributions. First, we propose CogEval, a cognitive
science-inspired protocol for the systematic evaluation of cognitive capacities
in Large Language Models. The CogEval protocol can be followed for the
evaluation of various abilities. Second, here we follow CogEval to
systematically evaluate cognitive maps and planning ability across eight LLMs
(OpenAI GPT-4, GPT-3.5-turbo-175B, davinci-003-175B, Google Bard,
Cohere-xlarge-52.4B, Anthropic Claude-1-52B, LLaMA-13B, and Alpaca-7B). We base
our task prompts on human experiments, which offer both established construct
validity for evaluating planning, and are absent from LLM training sets. We
find that, while LLMs show apparent competence in a few planning tasks with
simpler structures, systematic evaluation reveals striking failure modes in
planning tasks, including hallucinations of invalid trajectories and getting
trapped in loops. These findings do not support the idea of emergent
out-of-the-box planning ability in LLMs. This could be because LLMs do not
understand the latent relational structures underlying planning problems, known
as cognitive maps, and fail at unrolling goal-directed trajectories based on
the underlying structure. Implications for application and future directions
are discussed.