Prévoir le progrès scientifique à l'aide de l'intelligence artificielle

Résumé

L'intelligence artificielle (IA) est de plus en plus intégrée à la découverte scientifique, mais il reste incertain qu'elle puisse anticiper le progrès scientifique. Pour étudier cette question, nous introduisons un cadre d'évaluation temporellement ancré permettant de prévoir le progrès scientifique sous contraintes de connaissance contrôlées. Nous présentons CUSP (Cutoff-conditioned Unseen Scientific Progress), un benchmark multidisciplinaire et au niveau des événements qui évalue la capacité de prévision scientifique des systèmes d'IA à travers l'évaluation de faisabilité, le raisonnement mécanistique, la conception de solutions génératives et la prédiction temporelle. Sur 4 760 événements scientifiques, nous observons des limitations systématiques et dépendantes du domaine dans les modèles de pointe actuels. Bien que les modèles puissent identifier des directions de recherche plausibles parmi des candidats concurrents, ils ne parviennent pas à prédire de manière fiable si les avancées scientifiques seront réalisées et évaluent mal systématiquement le moment où elles se produiront. Les performances sont très hétérogènes selon les domaines, le calendrier des progrès de l'IA étant plus prévisible que les avancées en biologie, chimie et physique. Les performances sont largement insensibles au fait que les événements se produisent avant ou après la coupure d'entraînement, ce qui suggère que ces limitations ne peuvent être uniquement expliquées par l'exposition aux connaissances dans les données d'entraînement. Sous un accès contrôlé à l'information, des connaissances supplémentaires antérieures à la coupure améliorent les performances mais ne comblent pas l'écart avec les configurations d'information complète, écart qui devient plus prononcé pour les avancées très citées. Les modèles présentent également un excès de confiance systématique et de forts biais de réponse, indiquant une estimation d'incertitude peu fiable. Dans l'ensemble, les systèmes d'IA actuels ne sont pas à la hauteur en tant qu'outils prédictifs du progrès scientifique. L'accès à des connaissances antérieures ne se traduit pas par des prévisions fiables, et les performances bénéficient davantage des informations post-événement que de la prédiction prospective.

English

Artificial intelligence (AI) is increasingly embedded in scientific discovery, yet whether it can anticipate scientific progress remains unclear. To study this question, we introduce a temporally grounded evaluation framework for forecasting scientific progress under controlled knowledge constraints. We present CUSP (Cutoff-conditioned Unseen Scientific Progress), a multi-disciplinary and event-level benchmark that evaluates scientific forecasting in AI systems through feasibility assessment, mechanistic reasoning, generative solution design, and temporal prediction. Across 4,760 scientific events, we observe systematic and domain-dependent limitations in current frontier models. While models can identify plausible research directions from competing candidates, they fail to reliably predict whether scientific advances will be realized and systematically misestimate when they will occur. Performance is highly heterogeneous across domains, with the timing of AI progress more predictable than advances in biology, chemistry, and physics. Performance is largely insensitive to whether events occur before or after the training cutoff, suggesting these limitations cannot be explained solely by knowledge exposure in training data. Under controlled information access, additional pre-cutoff knowledge improves performance but does not close the gap to full-information settings, which becomes more pronounced for high-citation advances. Models also exhibit systematic overconfidence and strong response biases, indicating unreliable uncertainty estimation. Taken together, current AI systems fall short as predictive tools for scientific progress. Access to prior knowledge does not translate into reliable forecasting, and performance benefits more from post-event information than from forward-looking prediction.