Evaluación de Modelos de Lenguaje de Gran Escala en Pronósticos del Mundo Real frente a Superpronosticadores Humanos
Evaluating LLMs on Real-World Forecasting Against Human Superforecasters
July 6, 2025
Autores: Janna Lu
cs.AI
Resumen
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado capacidades notables en diversas tareas, pero su habilidad para predecir eventos futuros sigue siendo poco estudiada. Hace un año, estos modelos luchaban por acercarse a la precisión de una multitud humana. Evalúo modelos de lenguaje de última generación en 464 preguntas de predicción de Metaculus, comparando su rendimiento con el de superpronosticadores humanos. Los modelos más avanzados logran puntajes de Brier que aparentemente superan a la multitud humana, pero aún así tienen un desempeño significativamente inferior al de un grupo de superpronosticadores.
English
Large language models (LLMs) have demonstrated remarkable capabilities across
diverse tasks, but their ability to forecast future events remains
understudied. A year ago, large language models struggle to come close to the
accuracy of a human crowd. I evaluate state-of-the-art LLMs on 464 forecasting
questions from Metaculus, comparing their performance against human
superforecasters. Frontier models achieve Brier scores that ostensibly surpass
the human crowd but still significantly underperform a group of
superforecasters.