Когда ИИ-соучёные ошибаются: SPOT — эталон для автоматизированной проверки научных исследований
When AI Co-Scientists Fail: SPOT-a Benchmark for Automated Verification of Scientific Research
May 17, 2025
Авторы: Guijin Son, Jiwoo Hong, Honglu Fan, Heejeong Nam, Hyunwoo Ko, Seungwon Lim, Jinyeop Song, Jinha Choi, Gonçalo Paulo, Youngjae Yu, Stella Biderman
cs.AI
Аннотация
Недавние достижения в области больших языковых моделей (LLM) подогрели интерес к идее автоматизированного научного открытия, часто называемого "AI Co-Scientists". До настоящего времени предыдущие работы рассматривали такие системы как генеративных соавторов, ответственных за формулирование гипотез, синтез кода или составление рукописей. В данной работе мы исследуем дополнительное применение: использование LLM в качестве верификаторов для автоматизации академической проверки научных рукописей. С этой целью мы представляем SPOT — набор данных, включающий 83 опубликованные статьи, сопоставленные с 91 ошибкой, достаточно значимой для инициирования исправлений или отзыва публикации, проверенной с участием реальных авторов и человеческих аннотаторов. Оценивая современные LLM на SPOT, мы обнаруживаем, что ни одна из них не превосходит 21,1% полноты или 6,1% точности (o3 показывает наилучшие результаты, в то время как остальные близки к нулю). Более того, оценки уверенности остаются стабильно низкими, а в восьми независимых запусках модели редко повторно обнаруживают одни и те же ошибки, что подрывает их надежность. Наконец, качественный анализ с участием экспертов в предметной области показывает, что даже самые сильные модели допускают ошибки, напоминающие студенческие заблуждения, вызванные непониманием. Эти результаты подчеркивают значительный разрыв между текущими возможностями LLM и требованиями к надежной AI-ассистированной академической верификации.
English
Recent advances in large language models (LLMs) have fueled the vision of
automated scientific discovery, often called AI Co-Scientists. To date, prior
work casts these systems as generative co-authors responsible for crafting
hypotheses, synthesizing code, or drafting manuscripts. In this work, we
explore a complementary application: using LLMs as verifiers to automate the
academic verification of scientific manuscripts. To that end, we
introduce SPOT, a dataset of 83 published papers paired with 91 errors
significant enough to prompt errata or retraction, cross-validated with actual
authors and human annotators. Evaluating state-of-the-art LLMs on SPOT, we find
that none surpasses 21.1\% recall or 6.1\% precision (o3 achieves the best
scores, with all others near zero). Furthermore, confidence estimates are
uniformly low, and across eight independent runs, models rarely rediscover the
same errors, undermining their reliability. Finally, qualitative analysis with
domain experts reveals that even the strongest models make mistakes resembling
student-level misconceptions derived from misunderstandings. These findings
highlight the substantial gap between current LLM capabilities and the
requirements for dependable AI-assisted academic verification.Summary
AI-Generated Summary