Quand les IA co-scientifiques échouent : SPOT - un benchmark pour la vérification automatisée de la recherche scientifique
When AI Co-Scientists Fail: SPOT-a Benchmark for Automated Verification of Scientific Research
May 17, 2025
Auteurs: Guijin Son, Jiwoo Hong, Honglu Fan, Heejeong Nam, Hyunwoo Ko, Seungwon Lim, Jinyeop Song, Jinha Choi, Gonçalo Paulo, Youngjae Yu, Stella Biderman
cs.AI
Résumé
Les récentes avancées dans les modèles de langage de grande taille (LLMs) ont alimenté la vision d'une découverte scientifique automatisée, souvent appelée Co-Scientifiques IA. À ce jour, les travaux antérieurs présentent ces systèmes comme des co-auteurs génératifs responsables de formuler des hypothèses, de synthétiser du code ou de rédiger des manuscrits. Dans ce travail, nous explorons une application complémentaire : l'utilisation des LLMs comme vérificateurs pour automatiser la vérification académique des manuscrits scientifiques. À cette fin, nous introduisons SPOT, un ensemble de données composé de 83 articles publiés associés à 91 erreurs suffisamment significatives pour justifier des errata ou des rétractations, validées en croisé avec les auteurs réels et des annotateurs humains. En évaluant les LLMs de pointe sur SPOT, nous constatons qu'aucun ne dépasse 21,1 % de rappel ou 6,1 % de précision (o3 obtient les meilleurs scores, tous les autres étant proches de zéro). De plus, les estimations de confiance sont uniformément faibles, et sur huit exécutions indépendantes, les modèles redécouvrent rarement les mêmes erreurs, ce qui compromet leur fiabilité. Enfin, une analyse qualitative avec des experts du domaine révèle que même les modèles les plus performants commettent des erreurs ressemblant à des idées fausses de niveau étudiant, issues de malentendus. Ces résultats mettent en évidence l'écart substantiel entre les capacités actuelles des LLMs et les exigences pour une vérification académique assistée par IA fiable.
English
Recent advances in large language models (LLMs) have fueled the vision of
automated scientific discovery, often called AI Co-Scientists. To date, prior
work casts these systems as generative co-authors responsible for crafting
hypotheses, synthesizing code, or drafting manuscripts. In this work, we
explore a complementary application: using LLMs as verifiers to automate the
academic verification of scientific manuscripts. To that end, we
introduce SPOT, a dataset of 83 published papers paired with 91 errors
significant enough to prompt errata or retraction, cross-validated with actual
authors and human annotators. Evaluating state-of-the-art LLMs on SPOT, we find
that none surpasses 21.1\% recall or 6.1\% precision (o3 achieves the best
scores, with all others near zero). Furthermore, confidence estimates are
uniformly low, and across eight independent runs, models rarely rediscover the
same errors, undermining their reliability. Finally, qualitative analysis with
domain experts reveals that even the strongest models make mistakes resembling
student-level misconceptions derived from misunderstandings. These findings
highlight the substantial gap between current LLM capabilities and the
requirements for dependable AI-assisted academic verification.Summary
AI-Generated Summary