Können LLMs kritische Einschränkungen in der wissenschaftlichen Forschung identifizieren? Eine systematische Auswertung von KI-Forschungsarbeiten
Can LLMs Identify Critical Limitations within Scientific Research? A Systematic Evaluation on AI Research Papers
July 3, 2025
Autoren: Zhijian Xu, Yilun Zhao, Manasi Patwardhan, Lovekesh Vig, Arman Cohan
cs.AI
Zusammenfassung
Peer Review ist ein grundlegender Bestandteil der wissenschaftlichen Forschung, doch die zunehmende Anzahl von Publikationen hat die Herausforderungen dieses expertiseintensiven Prozesses verstärkt. Während Large Language Models (LLMs) vielversprechend in verschiedenen wissenschaftlichen Aufgaben sind, bleibt ihr Potenzial, bei der Peer Review zu unterstützen, insbesondere bei der Identifizierung von Einschränkungen in wissenschaftlichen Arbeiten, weitgehend unerforscht. Wir präsentieren zunächst eine umfassende Taxonomie von Einschränkungstypen in der wissenschaftlichen Forschung, mit einem Fokus auf KI. Angeleitet von dieser Taxonomie stellen wir für die Untersuchung von Einschränkungen LimitGen vor, den ersten umfassenden Benchmark zur Bewertung der Fähigkeit von LLMs, frühes Feedback zu unterstützen und die menschliche Peer Review zu ergänzen. Unser Benchmark besteht aus zwei Teilmengen: LimitGen-Syn, ein synthetischer Datensatz, der sorgfältig durch kontrollierte Perturbationen hochwertiger Arbeiten erstellt wurde, und LimitGen-Human, eine Sammlung von tatsächlich von Menschen verfassten Einschränkungen. Um die Fähigkeit von LLM-Systemen zur Identifizierung von Einschränkungen zu verbessern, erweitern wir sie mit Literaturrecherche, die entscheidend ist, um die Identifizierung von Einschränkungen in früheren wissenschaftlichen Erkenntnissen zu verankern. Unser Ansatz verbessert die Fähigkeiten von LLM-Systemen, Einschränkungen in Forschungsarbeiten zu generieren, und ermöglicht es ihnen, konkreteres und konstruktiveres Feedback zu geben.
English
Peer review is fundamental to scientific research, but the growing volume of
publications has intensified the challenges of this expertise-intensive
process. While LLMs show promise in various scientific tasks, their potential
to assist with peer review, particularly in identifying paper limitations,
remains understudied. We first present a comprehensive taxonomy of limitation
types in scientific research, with a focus on AI. Guided by this taxonomy, for
studying limitations, we present LimitGen, the first comprehensive benchmark
for evaluating LLMs' capability to support early-stage feedback and complement
human peer review. Our benchmark consists of two subsets: LimitGen-Syn, a
synthetic dataset carefully created through controlled perturbations of
high-quality papers, and LimitGen-Human, a collection of real human-written
limitations. To improve the ability of LLM systems to identify limitations, we
augment them with literature retrieval, which is essential for grounding
identifying limitations in prior scientific findings. Our approach enhances the
capabilities of LLM systems to generate limitations in research papers,
enabling them to provide more concrete and constructive feedback.