ChatPaper.aiChatPaper

Wanneer AI-co-wetenschappers falen: SPOT - een benchmark voor geautomatiseerde verificatie van wetenschappelijk onderzoek

When AI Co-Scientists Fail: SPOT-a Benchmark for Automated Verification of Scientific Research

May 17, 2025
Auteurs: Guijin Son, Jiwoo Hong, Honglu Fan, Heejeong Nam, Hyunwoo Ko, Seungwon Lim, Jinyeop Song, Jinha Choi, Gonçalo Paulo, Youngjae Yu, Stella Biderman
cs.AI

Samenvatting

Recente ontwikkelingen in grote taalmodellen (LLMs) hebben de visie van geautomatiseerde wetenschappelijke ontdekking, vaak AI Co-Wetenschappers genoemd, aangewakkerd. Tot op heden hebben eerdere studies deze systemen voorgesteld als generatieve co-auteurs die verantwoordelijk zijn voor het formuleren van hypothesen, het samenstellen van code of het opstellen van manuscripten. In dit werk verkennen we een complementaire toepassing: het gebruik van LLMs als verificatoren om de academische verificatie van wetenschappelijke manuscripten te automatiseren. Hiertoe introduceren we SPOT, een dataset van 83 gepubliceerde artikelen gepaard met 91 fouten die significant genoeg waren om errata of terugtrekking te veroorzaken, gecrossvalideerd met daadwerkelijke auteurs en menselijke annotators. Bij het evalueren van state-of-the-art LLMs op SPOT, ontdekken we dat geen enkel model een recall van meer dan 21,1% of een precisie van meer dan 6,1% behaalt (o3 scoort het beste, terwijl alle andere modellen bijna nul scoren). Bovendien zijn de betrouwbaarheidsschattingen uniform laag, en over acht onafhankelijke runs heen ontdekken de modellen zelden dezelfde fouten opnieuw, wat hun betrouwbaarheid ondermijnt. Ten slotte onthult kwalitatieve analyse met domeinexperts dat zelfs de sterkste modellen fouten maken die lijken op misvattingen op studentenniveau, voortkomend uit misverstanden. Deze bevindingen benadrukken de aanzienlijke kloof tussen de huidige mogelijkheden van LLMs en de vereisten voor betrouwbare AI-ondersteunde academische verificatie.
English
Recent advances in large language models (LLMs) have fueled the vision of automated scientific discovery, often called AI Co-Scientists. To date, prior work casts these systems as generative co-authors responsible for crafting hypotheses, synthesizing code, or drafting manuscripts. In this work, we explore a complementary application: using LLMs as verifiers to automate the academic verification of scientific manuscripts. To that end, we introduce SPOT, a dataset of 83 published papers paired with 91 errors significant enough to prompt errata or retraction, cross-validated with actual authors and human annotators. Evaluating state-of-the-art LLMs on SPOT, we find that none surpasses 21.1\% recall or 6.1\% precision (o3 achieves the best scores, with all others near zero). Furthermore, confidence estimates are uniformly low, and across eight independent runs, models rarely rediscover the same errors, undermining their reliability. Finally, qualitative analysis with domain experts reveals that even the strongest models make mistakes resembling student-level misconceptions derived from misunderstandings. These findings highlight the substantial gap between current LLM capabilities and the requirements for dependable AI-assisted academic verification.

Summary

AI-Generated Summary

PDF92May 20, 2025