LLM이 과학 연구의 중요한 한계를 식별할 수 있는가? AI 연구 논문에 대한 체계적 평가
Can LLMs Identify Critical Limitations within Scientific Research? A Systematic Evaluation on AI Research Papers
July 3, 2025
저자: Zhijian Xu, Yilun Zhao, Manasi Patwardhan, Lovekesh Vig, Arman Cohan
cs.AI
초록
동료 평가는 과학 연구의 근간이지만, 출판물의 양이 증가함에 따라 이 전문 지식 집약적인 프로세스의 어려움이 더욱 심화되고 있습니다. 대형 언어 모델(LLM)이 다양한 과학적 과제에서 유망한 가능성을 보여주고 있지만, 특히 논문의 한계를 식별하는 데 있어 동료 평가를 지원할 수 있는 잠재력은 아직 충분히 연구되지 않았습니다. 우리는 먼저 AI를 중심으로 과학 연구에서의 한계 유형에 대한 포괄적인 분류 체계를 제시합니다. 이 분류 체계를 바탕으로, 한계를 연구하기 위해 우리는 초기 피드백을 지원하고 인간 동료 평가를 보완하는 LLM의 능력을 평가하기 위한 첫 번째 포괄적인 벤치마크인 LimitGen을 소개합니다. 우리의 벤치마크는 두 가지 하위 집합으로 구성됩니다: LimitGen-Syn은 고품질 논문의 통제된 변형을 통해 신중하게 생성된 합성 데이터셋이며, LimitGen-Human은 실제 인간이 작성한 한계 사례를 모은 데이터셋입니다. LLM 시스템이 한계를 식별하는 능력을 향상시키기 위해, 우리는 선행 과학적 발견에 기반을 둔 한계 식별에 필수적인 문헌 검색 기능을 추가합니다. 우리의 접근 방식은 연구 논문에서 한계를 생성하는 LLM 시스템의 능력을 강화하여, 보다 구체적이고 건설적인 피드백을 제공할 수 있도록 합니다.
English
Peer review is fundamental to scientific research, but the growing volume of
publications has intensified the challenges of this expertise-intensive
process. While LLMs show promise in various scientific tasks, their potential
to assist with peer review, particularly in identifying paper limitations,
remains understudied. We first present a comprehensive taxonomy of limitation
types in scientific research, with a focus on AI. Guided by this taxonomy, for
studying limitations, we present LimitGen, the first comprehensive benchmark
for evaluating LLMs' capability to support early-stage feedback and complement
human peer review. Our benchmark consists of two subsets: LimitGen-Syn, a
synthetic dataset carefully created through controlled perturbations of
high-quality papers, and LimitGen-Human, a collection of real human-written
limitations. To improve the ability of LLM systems to identify limitations, we
augment them with literature retrieval, which is essential for grounding
identifying limitations in prior scientific findings. Our approach enhances the
capabilities of LLM systems to generate limitations in research papers,
enabling them to provide more concrete and constructive feedback.