대규모 언어 모델의 인지 지도와 계획 능력 평가: CogEval을 중심으로
Evaluating Cognitive Maps and Planning in Large Language Models with CogEval
September 25, 2023
저자: Ida Momennejad, Hosein Hasanbeig, Felipe Vieira, Hiteshi Sharma, Robert Osazuwa Ness, Nebojsa Jojic, Hamid Palangi, Jonathan Larson
cs.AI
초록
최근 대규모 언어 모델(LLM)에서 새로운 인지 능력이 나타난다는 주장을 담은 연구들이 쏟아져 나오고 있다. 그러나 대부분의 연구는 일화적 증거에 의존하거나, 훈련 데이터셋의 오염 가능성을 간과하거나, 다중 과제, 통제 조건, 반복 실험, 통계적 강건성 검증을 포함한 체계적인 평가가 부족한 경우가 많다. 본 연구에서는 두 가지 주요 기여를 한다. 첫째, 대규모 언어 모델의 인지 능력을 체계적으로 평가하기 위한 인지 과학 기반 프로토콜인 CogEval을 제안한다. CogEval 프로토콜은 다양한 능력 평가에 적용할 수 있다. 둘째, 본 연구에서는 CogEval을 따라 OpenAI GPT-4, GPT-3.5-turbo-175B, davinci-003-175B, Google Bard, Cohere-xlarge-52.4B, Anthropic Claude-1-52B, LLaMA-13B, Alpaca-7B 등 8가지 LLM에 대해 인지 지도와 계획 능력을 체계적으로 평가한다. 과제 프롬프트는 인간 실험을 기반으로 설계되었으며, 이는 계획 능력 평가를 위한 확립된 구성 타당성을 제공할 뿐만 아니라 LLM 훈련 데이터셋에 포함되지 않은 내용이다. 연구 결과, LLM은 구조적으로 단순한 몇 가지 계획 과제에서는 유의미한 능력을 보였지만, 체계적인 평가를 통해 무효한 경로를 환각하거나 루프에 빠지는 등 계획 과제에서 두드러지는 실패 모드를 발견했다. 이러한 결과는 LLM에서 즉각적인 계획 능력이 나타난다는 주장을 지지하지 않는다. 이는 LLM이 계획 문제의 기저에 있는 잠재적 관계 구조, 즉 인지 지도를 이해하지 못하고, 기저 구조를 기반으로 목표 지향적 경로를 전개하는 데 실패하기 때문일 수 있다. 응용 및 향후 연구 방향에 대한 함의를 논의한다.
English
Recently an influx of studies claim emergent cognitive abilities in large
language models (LLMs). Yet, most rely on anecdotes, overlook contamination of
training sets, or lack systematic Evaluation involving multiple tasks, control
conditions, multiple iterations, and statistical robustness tests. Here we make
two major contributions. First, we propose CogEval, a cognitive
science-inspired protocol for the systematic evaluation of cognitive capacities
in Large Language Models. The CogEval protocol can be followed for the
evaluation of various abilities. Second, here we follow CogEval to
systematically evaluate cognitive maps and planning ability across eight LLMs
(OpenAI GPT-4, GPT-3.5-turbo-175B, davinci-003-175B, Google Bard,
Cohere-xlarge-52.4B, Anthropic Claude-1-52B, LLaMA-13B, and Alpaca-7B). We base
our task prompts on human experiments, which offer both established construct
validity for evaluating planning, and are absent from LLM training sets. We
find that, while LLMs show apparent competence in a few planning tasks with
simpler structures, systematic evaluation reveals striking failure modes in
planning tasks, including hallucinations of invalid trajectories and getting
trapped in loops. These findings do not support the idea of emergent
out-of-the-box planning ability in LLMs. This could be because LLMs do not
understand the latent relational structures underlying planning problems, known
as cognitive maps, and fail at unrolling goal-directed trajectories based on
the underlying structure. Implications for application and future directions
are discussed.