ChatPaper.aiChatPaper

Avaliação de LLMs em Previsões do Mundo Real em Comparação com Superprevisores Humanos

Evaluating LLMs on Real-World Forecasting Against Human Superforecasters

July 6, 2025
Autores: Janna Lu
cs.AI

Resumo

Modelos de linguagem de grande escala (LLMs) demonstraram capacidades notáveis em diversas tarefas, mas sua habilidade de prever eventos futuros permanece pouco estudada. Um ano atrás, os grandes modelos de linguagem lutavam para se aproximar da precisão de uma multidão humana. Avalio os LLMs de última geração em 464 questões de previsão do Metaculus, comparando seu desempenho com o de superprevisores humanos. Os modelos de ponta alcançam escores de Brier que aparentemente superam a multidão humana, mas ainda apresentam um desempenho significativamente inferior ao de um grupo de superprevisores.
English
Large language models (LLMs) have demonstrated remarkable capabilities across diverse tasks, but their ability to forecast future events remains understudied. A year ago, large language models struggle to come close to the accuracy of a human crowd. I evaluate state-of-the-art LLMs on 464 forecasting questions from Metaculus, comparing their performance against human superforecasters. Frontier models achieve Brier scores that ostensibly surpass the human crowd but still significantly underperform a group of superforecasters.
PDF22July 8, 2025