Het evalueren van LLM's op real-world voorspellingen in vergelijking met menselijke supervoorspellers
Evaluating LLMs on Real-World Forecasting Against Human Superforecasters
July 6, 2025
Auteurs: Janna Lu
cs.AI
Samenvatting
Grote taalmodellen (LLMs) hebben opmerkelijke prestaties getoond bij diverse taken, maar hun vermogen om toekomstige gebeurtenissen te voorspellen blijft onderbelicht. Een jaar geleden konden grote taalmodellen nog niet in de buurt komen van de nauwkeurigheid van een menselijke groep. Ik evalueer state-of-the-art LLMs op 464 voorspellingsvragen van Metaculus en vergelijk hun prestaties met die van menselijke supervoorspellers. De meest geavanceerde modellen behalen Brier-scores die ogenschijnlijk de menselijke groep overtreffen, maar ze presteren nog steeds aanzienlijk slechter dan een groep supervoorspellers.
English
Large language models (LLMs) have demonstrated remarkable capabilities across
diverse tasks, but their ability to forecast future events remains
understudied. A year ago, large language models struggle to come close to the
accuracy of a human crowd. I evaluate state-of-the-art LLMs on 464 forecasting
questions from Metaculus, comparing their performance against human
superforecasters. Frontier models achieve Brier scores that ostensibly surpass
the human crowd but still significantly underperform a group of
superforecasters.