ChatPaper.aiChatPaper

Wenn KI-Mitwissenschaftler scheitern: SPOT – ein Benchmark für die automatisierte Überprüfung wissenschaftlicher Forschung

When AI Co-Scientists Fail: SPOT-a Benchmark for Automated Verification of Scientific Research

May 17, 2025
Autoren: Guijin Son, Jiwoo Hong, Honglu Fan, Heejeong Nam, Hyunwoo Ko, Seungwon Lim, Jinyeop Song, Jinha Choi, Gonçalo Paulo, Youngjae Yu, Stella Biderman
cs.AI

Zusammenfassung

Jüngste Fortschritte bei großen Sprachmodellen (LLMs) haben die Vision der automatisierten wissenschaftlichen Entdeckung, oft als KI-Co-Wissenschaftler bezeichnet, beflügelt. Bisherige Arbeiten stellen diese Systeme als generative Co-Autoren dar, die für die Formulierung von Hypothesen, die Synthese von Code oder das Verfassen von Manuskripten verantwortlich sind. In dieser Arbeit untersuchen wir eine komplementäre Anwendung: den Einsatz von LLMs als Verifizierer zur Automatisierung der akademischen Überprüfung wissenschaftlicher Manuskripte. Zu diesem Zweck stellen wir SPOT vor, einen Datensatz von 83 veröffentlichten Artikeln, die mit 91 Fehlern gepaart sind, die signifikant genug sind, um Errata oder Rücknahmen zu veranlassen, und die mit den tatsächlichen Autoren und menschlichen Annotatoren abgeglichen wurden. Bei der Bewertung von state-of-the-art LLMs auf SPOT stellen wir fest, dass keines eine Trefferquote von mehr als 21,1 % oder eine Präzision von mehr als 6,1 % erreicht (o3 erzielt die besten Werte, während alle anderen nahe Null liegen). Darüber hinaus sind die Konfidenzschätzungen durchweg niedrig, und über acht unabhängige Durchläufe hinweg entdecken die Modelle selten dieselben Fehler wieder, was ihre Zuverlässigkeit untergräbt. Schließlich zeigt eine qualitative Analyse mit Domänenexperten, dass selbst die stärksten Modelle Fehler machen, die Missverständnissen auf Studentenniveau ähneln. Diese Ergebnisse verdeutlichen die erhebliche Lücke zwischen den aktuellen Fähigkeiten von LLMs und den Anforderungen für eine zuverlässige KI-gestützte akademische Verifizierung.
English
Recent advances in large language models (LLMs) have fueled the vision of automated scientific discovery, often called AI Co-Scientists. To date, prior work casts these systems as generative co-authors responsible for crafting hypotheses, synthesizing code, or drafting manuscripts. In this work, we explore a complementary application: using LLMs as verifiers to automate the academic verification of scientific manuscripts. To that end, we introduce SPOT, a dataset of 83 published papers paired with 91 errors significant enough to prompt errata or retraction, cross-validated with actual authors and human annotators. Evaluating state-of-the-art LLMs on SPOT, we find that none surpasses 21.1\% recall or 6.1\% precision (o3 achieves the best scores, with all others near zero). Furthermore, confidence estimates are uniformly low, and across eight independent runs, models rarely rediscover the same errors, undermining their reliability. Finally, qualitative analysis with domain experts reveals that even the strongest models make mistakes resembling student-level misconceptions derived from misunderstandings. These findings highlight the substantial gap between current LLM capabilities and the requirements for dependable AI-assisted academic verification.

Summary

AI-Generated Summary

PDF92May 20, 2025