Het evalueren van LLM's op real-world voorspellingen in vergelijking met menselijke supervoorspellers

Samenvatting

Grote taalmodellen (LLMs) hebben opmerkelijke prestaties getoond bij diverse taken, maar hun vermogen om toekomstige gebeurtenissen te voorspellen blijft onderbelicht. Een jaar geleden konden grote taalmodellen nog niet in de buurt komen van de nauwkeurigheid van een menselijke groep. Ik evalueer state-of-the-art LLMs op 464 voorspellingsvragen van Metaculus en vergelijk hun prestaties met die van menselijke supervoorspellers. De meest geavanceerde modellen behalen Brier-scores die ogenschijnlijk de menselijke groep overtreffen, maar ze presteren nog steeds aanzienlijk slechter dan een groep supervoorspellers.

English

Large language models (LLMs) have demonstrated remarkable capabilities across diverse tasks, but their ability to forecast future events remains understudied. A year ago, large language models struggle to come close to the accuracy of a human crowd. I evaluate state-of-the-art LLMs on 464 forecasting questions from Metaculus, comparing their performance against human superforecasters. Frontier models achieve Brier scores that ostensibly surpass the human crowd but still significantly underperform a group of superforecasters.

Het evalueren van LLM's op real-world voorspellingen in vergelijking met menselijke supervoorspellers

Evaluating LLMs on Real-World Forecasting Against Human Superforecasters

Samenvatting

Support