Bewertung von LLMs bei der realen Vorhersage im Vergleich zu menschlichen Superforecaster
Evaluating LLMs on Real-World Forecasting Against Human Superforecasters
July 6, 2025
Autoren: Janna Lu
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) haben bemerkenswerte Fähigkeiten bei einer Vielzahl von Aufgaben gezeigt, doch ihre Fähigkeit, zukünftige Ereignisse vorherzusagen, bleibt weitgehend unerforscht. Vor einem Jahr lagen große Sprachmodelle noch weit hinter der Genauigkeit einer menschlichen Crowd zurück. Ich evaluiere state-of-the-art LLMs anhand von 464 Prognosefragen von Metaculus und vergleiche ihre Leistung mit der von menschlichen Superforecastern. Die fortschrittlichsten Modelle erreichen Brier-Scores, die scheinbar die menschliche Crowd übertreffen, aber dennoch deutlich hinter einer Gruppe von Superforecastern zurückbleiben.
English
Large language models (LLMs) have demonstrated remarkable capabilities across
diverse tasks, but their ability to forecast future events remains
understudied. A year ago, large language models struggle to come close to the
accuracy of a human crowd. I evaluate state-of-the-art LLMs on 464 forecasting
questions from Metaculus, comparing their performance against human
superforecasters. Frontier models achieve Brier scores that ostensibly surpass
the human crowd but still significantly underperform a group of
superforecasters.