ChatPaper.aiChatPaper

Valutazione dei Modelli Linguistici su Previsioni del Mondo Reale rispetto ai Superprevisori Umani

Evaluating LLMs on Real-World Forecasting Against Human Superforecasters

July 6, 2025
Autori: Janna Lu
cs.AI

Abstract

I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato capacità notevoli in una vasta gamma di compiti, ma la loro abilità nel prevedere eventi futuri rimane poco studiata. Un anno fa, i grandi modelli linguistici faticavano ad avvicinarsi all'accuratezza di una folla umana. Valuto i migliori LLM all'avanguardia su 464 domande di previsione provenienti da Metaculus, confrontando le loro prestazioni con quelle dei superprevisori umani. I modelli di frontiera raggiungono punteggi Brier che apparentemente superano la folla umana, ma continuano a sottoperformare in modo significativo rispetto a un gruppo di superprevisori.
English
Large language models (LLMs) have demonstrated remarkable capabilities across diverse tasks, but their ability to forecast future events remains understudied. A year ago, large language models struggle to come close to the accuracy of a human crowd. I evaluate state-of-the-art LLMs on 464 forecasting questions from Metaculus, comparing their performance against human superforecasters. Frontier models achieve Brier scores that ostensibly surpass the human crowd but still significantly underperform a group of superforecasters.
PDF22July 8, 2025