ChatPaper.aiChatPaper

Оценка языковых моделей на основе реальных прогнозов в сравнении с людьми-суперпрогнозистами

Evaluating LLMs on Real-World Forecasting Against Human Superforecasters

July 6, 2025
Авторы: Janna Lu
cs.AI

Аннотация

Крупные языковые модели (LLMs) продемонстрировали впечатляющие способности в решении разнообразных задач, однако их способность прогнозировать будущие события остается недостаточно изученной. Год назад крупные языковые модели не могли приблизиться к точности прогнозов, сделанных человеческой толпой. Я оцениваю современные LLMs на 464 прогнозных вопросах с платформы Metaculus, сравнивая их результаты с показателями человеческих суперпрогнозистов. Передовые модели достигают оценок по шкале Бриера, которые на первый взгляд превосходят результаты человеческой толпы, но всё же значительно уступают группе суперпрогнозистов.
English
Large language models (LLMs) have demonstrated remarkable capabilities across diverse tasks, but their ability to forecast future events remains understudied. A year ago, large language models struggle to come close to the accuracy of a human crowd. I evaluate state-of-the-art LLMs on 464 forecasting questions from Metaculus, comparing their performance against human superforecasters. Frontier models achieve Brier scores that ostensibly surpass the human crowd but still significantly underperform a group of superforecasters.
PDF12July 8, 2025