ChatPaper.aiChatPaper

実世界の予測におけるLLMの評価:人間のスーパーフォーキャスターとの比較

Evaluating LLMs on Real-World Forecasting Against Human Superforecasters

July 6, 2025
著者: Janna Lu
cs.AI

要旨

大規模言語モデル(LLM)は多様なタスクにおいて顕著な能力を発揮しているが、未来の出来事を予測する能力についてはまだ十分に研究されていない。1年前、大規模言語モデルは人間の集団の精度に近づくことすら困難であった。本研究では、最先端のLLMをMetaculusの464の予測問題で評価し、その性能を人間のスーパーフォーキャスターと比較する。最先端モデルは、一見すると人間の集団を上回るブライアースコアを達成するものの、スーパーフォーキャスターのグループには依然として大きく及ばない結果となった。
English
Large language models (LLMs) have demonstrated remarkable capabilities across diverse tasks, but their ability to forecast future events remains understudied. A year ago, large language models struggle to come close to the accuracy of a human crowd. I evaluate state-of-the-art LLMs on 464 forecasting questions from Metaculus, comparing their performance against human superforecasters. Frontier models achieve Brier scores that ostensibly surpass the human crowd but still significantly underperform a group of superforecasters.
PDF12July 8, 2025