Voorspellen van wetenschappelijke vooruitgang met kunstmatige intelligentie

Samenvatting

Kunstmatige intelligentie (AI) raakt steeds meer verweven met wetenschappelijke ontdekkingen, maar het blijft onduidelijk of AI wetenschappelijke vooruitgang kan voorspellen. Om deze vraag te onderzoeken introduceren we een tijdelijk gefundeerd evaluatiekader voor het voorspellen van wetenschappelijke vooruitgang onder gecontroleerde kennisbeperkingen. We presenteren CUSP (Cutoff-conditioned Unseen Scientific Progress), een multidisciplinaire benchmark op gebeurtenisniveau die wetenschappelijke voorspellingen in AI-systemen evalueert via haalbaarheidsbeoordeling, mechanistisch redeneren, generatief oplossingsontwerp en temporele voorspelling. Over 4.760 wetenschappelijke gebeurtenissen heen observeren we systematische en domeinafhankelijke beperkingen bij huidige grensmodellen. Hoewel modellen plausibele onderzoeksrichtingen uit concurrerende kandidaten kunnen identificeren, slagen ze er niet in betrouwbaar te voorspellen of wetenschappelijke doorbraken gerealiseerd zullen worden en schatten ze systematisch verkeerd in wanneer deze zullen plaatsvinden. De prestaties zijn sterk heterogeen over domeinen heen, waarbij de timing van AI-vooruitgang beter voorspelbaar is dan vooruitgang in biologie, scheikunde en natuurkunde. De prestaties zijn grotendeels ongevoelig voor of gebeurtenissen plaatsvinden voor of na de trainingsafkap, wat suggereert dat deze beperkingen niet uitsluitend kunnen worden verklaard door kennisblootstelling in trainingsdata. Onder gecontroleerde toegang tot informatie verbetert extra kennis van voor de afkap de prestaties, maar overbrugt het de kloof met volledige informatiesituaties niet, die groter wordt bij hoog geciteerde vooruitgangen. Modellen vertonen ook systematische overmoed en sterke responsbias, wat wijst op onbetrouwbare schatting van onzekerheid. Alles bij elkaar schieten huidige AI-systemen tekort als voorspellende instrumenten voor wetenschappelijke vooruitgang. Toegang tot voorkennis vertaalt zich niet in betrouwbare voorspellingen, en prestaties profiteren meer van informatie na de gebeurtenis dan van vooruitkijkende voorspelling.

English

Artificial intelligence (AI) is increasingly embedded in scientific discovery, yet whether it can anticipate scientific progress remains unclear. To study this question, we introduce a temporally grounded evaluation framework for forecasting scientific progress under controlled knowledge constraints. We present CUSP (Cutoff-conditioned Unseen Scientific Progress), a multi-disciplinary and event-level benchmark that evaluates scientific forecasting in AI systems through feasibility assessment, mechanistic reasoning, generative solution design, and temporal prediction. Across 4,760 scientific events, we observe systematic and domain-dependent limitations in current frontier models. While models can identify plausible research directions from competing candidates, they fail to reliably predict whether scientific advances will be realized and systematically misestimate when they will occur. Performance is highly heterogeneous across domains, with the timing of AI progress more predictable than advances in biology, chemistry, and physics. Performance is largely insensitive to whether events occur before or after the training cutoff, suggesting these limitations cannot be explained solely by knowledge exposure in training data. Under controlled information access, additional pre-cutoff knowledge improves performance but does not close the gap to full-information settings, which becomes more pronounced for high-citation advances. Models also exhibit systematic overconfidence and strong response biases, indicating unreliable uncertainty estimation. Taken together, current AI systems fall short as predictive tools for scientific progress. Access to prior knowledge does not translate into reliable forecasting, and performance benefits more from post-event information than from forward-looking prediction.