ChatPaper.aiChatPaper

실제 세계 예측에서 인간 슈퍼포캐스터와 비교한 LLM 평가

Evaluating LLMs on Real-World Forecasting Against Human Superforecasters

July 6, 2025
저자: Janna Lu
cs.AI

초록

대형 언어 모델(LLMs)은 다양한 작업에서 놀라운 능력을 보여왔지만, 미래 사건을 예측하는 능력에 대해서는 아직 연구가 충분히 이루어지지 않았다. 1년 전만 해도 대형 언어 모델은 인간 집단의 정확도에 근접하기 어려웠다. 나는 메타큘러스(Metaculus)의 464개 예측 질문에 대해 최신 대형 언어 모델을 평가하고, 그 성능을 인간 슈퍼포캐스터(superforecasters)와 비교했다. 최첨단 모델들은 겉보기에는 인간 집단을 능가하는 브라이어 점수(Brier score)를 달성했지만, 여전히 슈퍼포캐스터 그룹에 비해 크게 뒤처지는 것으로 나타났다.
English
Large language models (LLMs) have demonstrated remarkable capabilities across diverse tasks, but their ability to forecast future events remains understudied. A year ago, large language models struggle to come close to the accuracy of a human crowd. I evaluate state-of-the-art LLMs on 464 forecasting questions from Metaculus, comparing their performance against human superforecasters. Frontier models achieve Brier scores that ostensibly surpass the human crowd but still significantly underperform a group of superforecasters.
PDF12July 8, 2025