Évaluation des modèles de langage sur la prévision en contexte réel par rapport aux superprévisionnistes humains

papers.abstract

Les grands modèles de langage (LLMs) ont démontré des capacités remarquables dans des tâches variées, mais leur aptitude à prédire des événements futurs reste peu étudiée. Il y a un an, les grands modèles de langage avaient du mal à rivaliser avec la précision d'une foule humaine. J'évalue les LLMs de pointe sur 464 questions de prévision issues de Metaculus, en comparant leurs performances à celles de superprévisionnistes humains. Les modèles les plus avancés obtiennent des scores de Brier qui semblent surpasser la foule humaine, mais restent significativement inférieurs à un groupe de superprévisionnistes.

English

Large language models (LLMs) have demonstrated remarkable capabilities across diverse tasks, but their ability to forecast future events remains understudied. A year ago, large language models struggle to come close to the accuracy of a human crowd. I evaluate state-of-the-art LLMs on 464 forecasting questions from Metaculus, comparing their performance against human superforecasters. Frontier models achieve Brier scores that ostensibly surpass the human crowd but still significantly underperform a group of superforecasters.

Évaluation des modèles de langage sur la prévision en contexte réel par rapport aux superprévisionnistes humains

Evaluating LLMs on Real-World Forecasting Against Human Superforecasters

papers.abstract

Support