ChatPaper.aiChatPaper

I modelli linguistici di grandi dimensioni possono identificare i limiti critici all'interno della ricerca scientifica? Una valutazione sistematica sui documenti di ricerca sull'intelligenza artificiale

Can LLMs Identify Critical Limitations within Scientific Research? A Systematic Evaluation on AI Research Papers

July 3, 2025
Autori: Zhijian Xu, Yilun Zhao, Manasi Patwardhan, Lovekesh Vig, Arman Cohan
cs.AI

Abstract

La revisione tra pari è fondamentale per la ricerca scientifica, ma il crescente volume di pubblicazioni ha intensificato le sfide di questo processo ad alta intensità di competenze. Sebbene i modelli linguistici di grandi dimensioni (LLM) mostrino promesse in vari compiti scientifici, il loro potenziale nell'assistere la revisione tra pari, in particolare nell'identificazione dei limiti degli articoli, rimane poco studiato. Presentiamo innanzitutto una tassonomia completa dei tipi di limiti nella ricerca scientifica, con un focus sull'intelligenza artificiale. Guidati da questa tassonomia, per lo studio dei limiti, presentiamo LimitGen, il primo benchmark completo per valutare la capacità degli LLM di supportare feedback nelle fasi iniziali e di integrare la revisione tra pari umana. Il nostro benchmark è composto da due sottoinsiemi: LimitGen-Syn, un dataset sintetico creato con cura attraverso perturbazioni controllate di articoli di alta qualità, e LimitGen-Human, una raccolta di limiti reali scritti da esseri umani. Per migliorare la capacità dei sistemi LLM di identificare i limiti, li arricchiamo con il recupero della letteratura, essenziale per ancorare l'identificazione dei limiti a precedenti risultati scientifici. Il nostro approccio potenzia le capacità dei sistemi LLM di generare limiti nei documenti di ricerca, consentendo loro di fornire feedback più concreti e costruttivi.
English
Peer review is fundamental to scientific research, but the growing volume of publications has intensified the challenges of this expertise-intensive process. While LLMs show promise in various scientific tasks, their potential to assist with peer review, particularly in identifying paper limitations, remains understudied. We first present a comprehensive taxonomy of limitation types in scientific research, with a focus on AI. Guided by this taxonomy, for studying limitations, we present LimitGen, the first comprehensive benchmark for evaluating LLMs' capability to support early-stage feedback and complement human peer review. Our benchmark consists of two subsets: LimitGen-Syn, a synthetic dataset carefully created through controlled perturbations of high-quality papers, and LimitGen-Human, a collection of real human-written limitations. To improve the ability of LLM systems to identify limitations, we augment them with literature retrieval, which is essential for grounding identifying limitations in prior scientific findings. Our approach enhances the capabilities of LLM systems to generate limitations in research papers, enabling them to provide more concrete and constructive feedback.
PDF161July 4, 2025