AI共研究者が失敗するとき:科学研究の自動検証のためのSPOTベンチマーク
When AI Co-Scientists Fail: SPOT-a Benchmark for Automated Verification of Scientific Research
May 17, 2025
著者: Guijin Son, Jiwoo Hong, Honglu Fan, Heejeong Nam, Hyunwoo Ko, Seungwon Lim, Jinyeop Song, Jinha Choi, Gonçalo Paulo, Youngjae Yu, Stella Biderman
cs.AI
要旨
大規模言語モデル(LLMs)の最近の進歩は、AI共科学者とも呼ばれる自動化された科学的発見のビジョンを促進してきた。これまでの研究では、これらのシステムを仮説の構築、コードの合成、または原稿の起草を担う生成的な共著者として位置づけてきた。本研究では、補完的な応用として、LLMsを検証者として活用し、学術論文の検証を自動化することを探求する。そのために、83本の公開論文と、実際の著者や人間のアノテーターとのクロスバリデーションによって確認された、誤報や撤回を引き起こすほど重大な91の誤りをペアにしたデータセットSPOTを導入する。SPOTにおいて最先端のLLMsを評価した結果、21.1%の再現率または6.1%の精度を超えるモデルはなく(o3が最高スコアを達成し、他はほぼゼロ)、信頼度の推定値も一様に低く、8回の独立した実行においてもモデルが同じ誤りを再発見することは稀であり、その信頼性が損なわれていることが明らかになった。さらに、ドメインエキスパートとの質的分析により、最も強力なモデルでさえ、誤解から生じる学生レベルの誤りに似たミスを犯すことが示された。これらの発見は、現在のLLMsの能力と、信頼性のあるAI支援学術検証の要件との間に大きな隔たりがあることを強調している。
English
Recent advances in large language models (LLMs) have fueled the vision of
automated scientific discovery, often called AI Co-Scientists. To date, prior
work casts these systems as generative co-authors responsible for crafting
hypotheses, synthesizing code, or drafting manuscripts. In this work, we
explore a complementary application: using LLMs as verifiers to automate the
academic verification of scientific manuscripts. To that end, we
introduce SPOT, a dataset of 83 published papers paired with 91 errors
significant enough to prompt errata or retraction, cross-validated with actual
authors and human annotators. Evaluating state-of-the-art LLMs on SPOT, we find
that none surpasses 21.1\% recall or 6.1\% precision (o3 achieves the best
scores, with all others near zero). Furthermore, confidence estimates are
uniformly low, and across eight independent runs, models rarely rediscover the
same errors, undermining their reliability. Finally, qualitative analysis with
domain experts reveals that even the strongest models make mistakes resembling
student-level misconceptions derived from misunderstandings. These findings
highlight the substantial gap between current LLM capabilities and the
requirements for dependable AI-assisted academic verification.Summary
AI-Generated Summary