Прогнозирование научного прогресса с помощью искусственного интеллекта
Forecasting Scientific Progress with Artificial Intelligence
May 21, 2026
Авторы: Sean Wu, Pan Lu, Yupeng Chen, Jonathan Bragg, Yutaro Yamada, Peter Clark, David Clifton, Philip Torr, James Zou, Junchi Yu
cs.AI
Аннотация
Искусственный интеллект (ИИ) все шире внедряется в научные открытия, однако остается неясным, способен ли он предвидеть научный прогресс. Для изучения этого вопроса мы вводим темпорально обоснованную систему оценки для прогнозирования научного прогресса в условиях контролируемых ограничений на объем знаний. Мы представляем CUSP (Cutoff-conditioned Unseen Scientific Progress) — междисциплинарный событийный бенчмарк, оценивающий научное прогнозирование в системах ИИ через оценку осуществимости, механистическое рассуждение, генеративное проектирование решений и временное предсказание. На основе 4 760 научных событий мы наблюдаем систематические и зависимые от области ограничения в современных передовых моделях. Хотя модели способны выделять правдоподобные направления исследований из конкурирующих вариантов, они не могут надежно предсказать, будут ли реализованы научные достижения, и систематически ошибаются в оценке времени их наступления. Производительность сильно неоднородна по различным областям: временные рамки прогресса в ИИ более предсказуемы, чем достижения в биологии, химии и физике. Производительность в значительной мере нечувствительна к тому, происходят ли события до или после точки отсечки обучения, что указывает на то, что эти ограничения не могут быть объяснены исключительно доступом к знаниям в обучающих данных. В условиях контролируемого доступа к информации дополнительные знания, полученные до точки отсечки, улучшают производительность, но не устраняют разрыв с условиями полной информации; этот разрыв становится более выраженным для достижений с высоким уровнем цитирования. Модели также демонстрируют систематическую избыточную уверенность и сильные смещения ответов, что свидетельствует о ненадежной оценке неопределенности. В совокупности современные системы ИИ не дотягивают до уровня предсказательных инструментов для научного прогресса. Доступ к предшествующим знаниям не приводит к надежному прогнозированию, и производительность выигрывает больше от информации о прошедших событиях, чем от перспективного предсказания.
English
Artificial intelligence (AI) is increasingly embedded in scientific discovery, yet whether it can anticipate scientific progress remains unclear. To study this question, we introduce a temporally grounded evaluation framework for forecasting scientific progress under controlled knowledge constraints. We present CUSP (Cutoff-conditioned Unseen Scientific Progress), a multi-disciplinary and event-level benchmark that evaluates scientific forecasting in AI systems through feasibility assessment, mechanistic reasoning, generative solution design, and temporal prediction. Across 4,760 scientific events, we observe systematic and domain-dependent limitations in current frontier models. While models can identify plausible research directions from competing candidates, they fail to reliably predict whether scientific advances will be realized and systematically misestimate when they will occur. Performance is highly heterogeneous across domains, with the timing of AI progress more predictable than advances in biology, chemistry, and physics. Performance is largely insensitive to whether events occur before or after the training cutoff, suggesting these limitations cannot be explained solely by knowledge exposure in training data. Under controlled information access, additional pre-cutoff knowledge improves performance but does not close the gap to full-information settings, which becomes more pronounced for high-citation advances. Models also exhibit systematic overconfidence and strong response biases, indicating unreliable uncertainty estimation. Taken together, current AI systems fall short as predictive tools for scientific progress. Access to prior knowledge does not translate into reliable forecasting, and performance benefits more from post-event information than from forward-looking prediction.