ChatPaper.aiChatPaper

Bewertung von LLMs bei der realen Vorhersage im Vergleich zu menschlichen Superforecaster

Evaluating LLMs on Real-World Forecasting Against Human Superforecasters

July 6, 2025
Autoren: Janna Lu
cs.AI

Zusammenfassung

Große Sprachmodelle (LLMs) haben bemerkenswerte Fähigkeiten bei einer Vielzahl von Aufgaben gezeigt, doch ihre Fähigkeit, zukünftige Ereignisse vorherzusagen, bleibt weitgehend unerforscht. Vor einem Jahr lagen große Sprachmodelle noch weit hinter der Genauigkeit einer menschlichen Crowd zurück. Ich evaluiere state-of-the-art LLMs anhand von 464 Prognosefragen von Metaculus und vergleiche ihre Leistung mit der von menschlichen Superforecastern. Die fortschrittlichsten Modelle erreichen Brier-Scores, die scheinbar die menschliche Crowd übertreffen, aber dennoch deutlich hinter einer Gruppe von Superforecastern zurückbleiben.
English
Large language models (LLMs) have demonstrated remarkable capabilities across diverse tasks, but their ability to forecast future events remains understudied. A year ago, large language models struggle to come close to the accuracy of a human crowd. I evaluate state-of-the-art LLMs on 464 forecasting questions from Metaculus, comparing their performance against human superforecasters. Frontier models achieve Brier scores that ostensibly surpass the human crowd but still significantly underperform a group of superforecasters.
PDF12July 8, 2025