ChatPaper.aiChatPaper

¿Pueden los LLM identificar limitaciones críticas en la investigación científica? Una evaluación sistemática en artículos de investigación sobre IA

Can LLMs Identify Critical Limitations within Scientific Research? A Systematic Evaluation on AI Research Papers

July 3, 2025
Autores: Zhijian Xu, Yilun Zhao, Manasi Patwardhan, Lovekesh Vig, Arman Cohan
cs.AI

Resumen

La revisión por pares es fundamental para la investigación científica, pero el creciente volumen de publicaciones ha intensificado los desafíos de este proceso que requiere un alto nivel de especialización. Si bien los modelos de lenguaje de gran escala (LLM, por sus siglas en inglés) muestran potencial en diversas tareas científicas, su capacidad para asistir en la revisión por pares, particularmente en la identificación de limitaciones en los artículos, sigue siendo poco estudiada. En primer lugar, presentamos una taxonomía exhaustiva de los tipos de limitaciones en la investigación científica, con un enfoque en la inteligencia artificial. Guiados por esta taxonomía, para el estudio de las limitaciones, presentamos LimitGen, el primer punto de referencia integral para evaluar la capacidad de los LLM de brindar retroalimentación en etapas tempranas y complementar la revisión por pares humana. Nuestro punto de referencia consta de dos subconjuntos: LimitGen-Syn, un conjunto de datos sintético cuidadosamente creado mediante perturbaciones controladas de artículos de alta calidad, y LimitGen-Human, una colección de limitaciones reales escritas por humanos. Para mejorar la capacidad de los sistemas LLM en la identificación de limitaciones, los complementamos con la recuperación de literatura, que es esencial para fundamentar la identificación de limitaciones en hallazgos científicos previos. Nuestro enfoque mejora las capacidades de los sistemas LLM para generar limitaciones en artículos de investigación, permitiéndoles ofrecer retroalimentación más concreta y constructiva.
English
Peer review is fundamental to scientific research, but the growing volume of publications has intensified the challenges of this expertise-intensive process. While LLMs show promise in various scientific tasks, their potential to assist with peer review, particularly in identifying paper limitations, remains understudied. We first present a comprehensive taxonomy of limitation types in scientific research, with a focus on AI. Guided by this taxonomy, for studying limitations, we present LimitGen, the first comprehensive benchmark for evaluating LLMs' capability to support early-stage feedback and complement human peer review. Our benchmark consists of two subsets: LimitGen-Syn, a synthetic dataset carefully created through controlled perturbations of high-quality papers, and LimitGen-Human, a collection of real human-written limitations. To improve the ability of LLM systems to identify limitations, we augment them with literature retrieval, which is essential for grounding identifying limitations in prior scientific findings. Our approach enhances the capabilities of LLM systems to generate limitations in research papers, enabling them to provide more concrete and constructive feedback.
PDF81July 4, 2025