Les modèles de langage peuvent-ils identifier les limites critiques dans la recherche scientifique ? Une évaluation systématique sur les articles de recherche en IA
Can LLMs Identify Critical Limitations within Scientific Research? A Systematic Evaluation on AI Research Papers
July 3, 2025
Auteurs: Zhijian Xu, Yilun Zhao, Manasi Patwardhan, Lovekesh Vig, Arman Cohan
cs.AI
Résumé
L’évaluation par les pairs est fondamentale pour la recherche scientifique, mais l’augmentation du volume de publications a intensifié les défis de ce processus exigeant en expertise. Bien que les modèles de langage de grande taille (LLM) montrent un potentiel dans diverses tâches scientifiques, leur capacité à assister l’évaluation par les pairs, en particulier pour identifier les limites des articles, reste peu étudiée. Nous présentons d’abord une taxonomie exhaustive des types de limites dans la recherche scientifique, en nous concentrant sur l’intelligence artificielle. Guidés par cette taxonomie, pour étudier les limites, nous proposons LimitGen, le premier benchmark complet pour évaluer la capacité des LLM à fournir des retours précoces et à compléter l’évaluation par les pairs humaine. Notre benchmark se compose de deux sous-ensembles : LimitGen-Syn, un ensemble de données synthétiques soigneusement créé par des perturbations contrôlées d’articles de haute qualité, et LimitGen-Human, une collection de limites réelles rédigées par des humains. Pour améliorer la capacité des systèmes LLM à identifier les limites, nous les enrichissons avec une recherche documentaire, essentielle pour ancrer l’identification des limites dans les découvertes scientifiques antérieures. Notre approche renforce la capacité des systèmes LLM à générer des limites dans les articles de recherche, leur permettant de fournir des retours plus concrets et constructifs.
English
Peer review is fundamental to scientific research, but the growing volume of
publications has intensified the challenges of this expertise-intensive
process. While LLMs show promise in various scientific tasks, their potential
to assist with peer review, particularly in identifying paper limitations,
remains understudied. We first present a comprehensive taxonomy of limitation
types in scientific research, with a focus on AI. Guided by this taxonomy, for
studying limitations, we present LimitGen, the first comprehensive benchmark
for evaluating LLMs' capability to support early-stage feedback and complement
human peer review. Our benchmark consists of two subsets: LimitGen-Syn, a
synthetic dataset carefully created through controlled perturbations of
high-quality papers, and LimitGen-Human, a collection of real human-written
limitations. To improve the ability of LLM systems to identify limitations, we
augment them with literature retrieval, which is essential for grounding
identifying limitations in prior scientific findings. Our approach enhances the
capabilities of LLM systems to generate limitations in research papers,
enabling them to provide more concrete and constructive feedback.