Оценка когнитивных карт и планирования в крупных языковых моделях с использованием CogEval
Evaluating Cognitive Maps and Planning in Large Language Models with CogEval
September 25, 2023
Авторы: Ida Momennejad, Hosein Hasanbeig, Felipe Vieira, Hiteshi Sharma, Robert Osazuwa Ness, Nebojsa Jojic, Hamid Palangi, Jonathan Larson
cs.AI
Аннотация
В последнее время появилось множество исследований, утверждающих о возникновении когнитивных способностей у крупных языковых моделей (LLM). Однако большинство из них опираются на единичные примеры, игнорируют возможное загрязнение обучающих наборов данных или не проводят систематической оценки, включающей несколько задач, контрольные условия, многократные итерации и статистические тесты на устойчивость. В данной работе мы делаем два основных вклада. Во-первых, мы предлагаем CogEval — протокол, вдохновленный когнитивной наукой, для систематической оценки когнитивных способностей крупных языковых моделей. Протокол CogEval может быть использован для оценки различных способностей. Во-вторых, мы применяем CogEval для систематической оценки когнитивных карт и способности к планированию у восьми LLM (OpenAI GPT-4, GPT-3.5-turbo-175B, davinci-003-175B, Google Bard, Cohere-xlarge-52.4B, Anthropic Claude-1-52B, LLaMA-13B и Alpaca-7B). Наши задания основаны на экспериментах с участием людей, которые обеспечивают установленную конструктивную валидность для оценки планирования и отсутствуют в обучающих наборах данных LLM. Мы обнаружили, что, хотя LLM демонстрируют видимую компетентность в некоторых задачах планирования с более простой структурой, систематическая оценка выявляет серьезные недостатки в задачах планирования, включая галлюцинации недопустимых траекторий и зацикливание. Эти результаты не подтверждают идею о возникновении готовой способности к планированию у LLM. Это может быть связано с тем, что LLM не понимают скрытые реляционные структуры, лежащие в основе задач планирования, известные как когнитивные карты, и не могут строить целевые траектории на основе этих структур. Обсуждаются приложения и возможные направления для будущих исследований.
English
Recently an influx of studies claim emergent cognitive abilities in large
language models (LLMs). Yet, most rely on anecdotes, overlook contamination of
training sets, or lack systematic Evaluation involving multiple tasks, control
conditions, multiple iterations, and statistical robustness tests. Here we make
two major contributions. First, we propose CogEval, a cognitive
science-inspired protocol for the systematic evaluation of cognitive capacities
in Large Language Models. The CogEval protocol can be followed for the
evaluation of various abilities. Second, here we follow CogEval to
systematically evaluate cognitive maps and planning ability across eight LLMs
(OpenAI GPT-4, GPT-3.5-turbo-175B, davinci-003-175B, Google Bard,
Cohere-xlarge-52.4B, Anthropic Claude-1-52B, LLaMA-13B, and Alpaca-7B). We base
our task prompts on human experiments, which offer both established construct
validity for evaluating planning, and are absent from LLM training sets. We
find that, while LLMs show apparent competence in a few planning tasks with
simpler structures, systematic evaluation reveals striking failure modes in
planning tasks, including hallucinations of invalid trajectories and getting
trapped in loops. These findings do not support the idea of emergent
out-of-the-box planning ability in LLMs. This could be because LLMs do not
understand the latent relational structures underlying planning problems, known
as cognitive maps, and fail at unrolling goal-directed trajectories based on
the underlying structure. Implications for application and future directions
are discussed.