Vorhersage wissenschaftlichen Fortschritts mit künstlicher Intelligenz

Zusammenfassung

Künstliche Intelligenz (KI) wird zunehmend in wissenschaftliche Entdeckungen eingebettet, doch ob sie wissenschaftlichen Fortschritt vorhersagen kann, bleibt unklar. Um diese Frage zu untersuchen, führen wir einen zeitlich verankerten Bewertungsrahmen zur Vorhersage wissenschaftlichen Fortschritts unter kontrollierten Wissensbeschränkungen ein. Wir stellen CUSP (Cutoff-conditioned Unseen Scientific Progress) vor, einen multidisziplinären und ereignisbasierten Benchmark, der wissenschaftliche Vorhersagen in KI-Systemen durch Machbarkeitsbewertung, mechanistisches Denken, generatives Lösungsdesign und zeitliche Vorhersage bewertet. Über 4.760 wissenschaftliche Ereignisse hinweg beobachten wir systematische und bereichsabhängige Einschränkungen in aktuellen Spitzenmodellen. Während Modelle plausible Forschungsrichtungen aus konkurrierenden Kandidaten identifizieren können, sind sie nicht in der Lage, zuverlässig vorherzusagen, ob wissenschaftliche Fortschritte realisiert werden, und schätzen systematisch falsch ein, wann sie eintreten werden. Die Leistung ist über die Bereiche hinweg sehr heterogen, wobei der Zeitpunkt des KI-Fortschritts vorhersagbarer ist als Fortschritte in Biologie, Chemie und Physik. Die Leistung ist weitgehend unempfindlich gegenüber der Frage, ob Ereignisse vor oder nach dem Trainings-Cutoff auftreten, was darauf hindeutet, dass diese Einschränkungen nicht allein durch die Wissensexposition in den Trainingsdaten erklärt werden können. Unter kontrolliertem Informationszugang verbessert zusätzliches Vor-Cutoff-Wissen die Leistung, schließt jedoch die Lücke zu Vollinformationsumgebungen nicht, die bei hochzitierten Fortschritten stärker ausgeprägt ist. Modelle zeigen zudem systematische Überconfidence und starke Antwortverzerrungen, was auf eine unzuverlässige Unsicherheitsschätzung hindeutet. Insgesamt bleiben aktuelle KI-Systeme als Vorhersagewerkzeuge für wissenschaftlichen Fortschritt hinter den Erwartungen zurück. Der Zugang zu Vorwissen führt nicht zu zuverlässigen Vorhersagen, und die Leistung profitiert mehr von Informationen nach dem Ereignis als von zukunftsgerichteter Vorhersage.

English

Artificial intelligence (AI) is increasingly embedded in scientific discovery, yet whether it can anticipate scientific progress remains unclear. To study this question, we introduce a temporally grounded evaluation framework for forecasting scientific progress under controlled knowledge constraints. We present CUSP (Cutoff-conditioned Unseen Scientific Progress), a multi-disciplinary and event-level benchmark that evaluates scientific forecasting in AI systems through feasibility assessment, mechanistic reasoning, generative solution design, and temporal prediction. Across 4,760 scientific events, we observe systematic and domain-dependent limitations in current frontier models. While models can identify plausible research directions from competing candidates, they fail to reliably predict whether scientific advances will be realized and systematically misestimate when they will occur. Performance is highly heterogeneous across domains, with the timing of AI progress more predictable than advances in biology, chemistry, and physics. Performance is largely insensitive to whether events occur before or after the training cutoff, suggesting these limitations cannot be explained solely by knowledge exposure in training data. Under controlled information access, additional pre-cutoff knowledge improves performance but does not close the gap to full-information settings, which becomes more pronounced for high-citation advances. Models also exhibit systematic overconfidence and strong response biases, indicating unreliable uncertainty estimation. Taken together, current AI systems fall short as predictive tools for scientific progress. Access to prior knowledge does not translate into reliable forecasting, and performance benefits more from post-event information than from forward-looking prediction.