Могут ли языковые модели выявлять критические ограничения в научных исследованиях? Систематическая оценка на примере работ по искусственному интеллекту.
Can LLMs Identify Critical Limitations within Scientific Research? A Systematic Evaluation on AI Research Papers
July 3, 2025
Авторы: Zhijian Xu, Yilun Zhao, Manasi Patwardhan, Lovekesh Vig, Arman Cohan
cs.AI
Аннотация
Рецензирование является основополагающим элементом научных исследований, однако растущий объем публикаций усугубляет сложности этого процесса, требующего высокой экспертизы. Хотя крупные языковые модели (LLM) демонстрируют потенциал в решении различных научных задач, их способность помогать в рецензировании, особенно в выявлении ограничений статей, остается недостаточно изученной. Мы представляем всеобъемлющую таксономию типов ограничений в научных исследованиях, сфокусированную на области искусственного интеллекта. Руководствуясь этой таксономией, для изучения ограничений мы предлагаем LimitGen — первый комплексный бенчмарк для оценки способности LLM поддерживать раннюю обратную связь и дополнять человеческое рецензирование. Наш бенчмарк состоит из двух подмножеств: LimitGen-Syn, синтетического набора данных, тщательно созданного путем контролируемых изменений высококачественных статей, и LimitGen-Human, коллекции реальных ограничений, написанных людьми. Для улучшения способности систем на основе LLM выявлять ограничения мы дополняем их функцией поиска литературы, что необходимо для обоснования выявленных ограничений на основе предыдущих научных результатов. Наш подход расширяет возможности систем LLM в генерации ограничений для научных статей, позволяя им предоставлять более конкретную и конструктивную обратную связь.
English
Peer review is fundamental to scientific research, but the growing volume of
publications has intensified the challenges of this expertise-intensive
process. While LLMs show promise in various scientific tasks, their potential
to assist with peer review, particularly in identifying paper limitations,
remains understudied. We first present a comprehensive taxonomy of limitation
types in scientific research, with a focus on AI. Guided by this taxonomy, for
studying limitations, we present LimitGen, the first comprehensive benchmark
for evaluating LLMs' capability to support early-stage feedback and complement
human peer review. Our benchmark consists of two subsets: LimitGen-Syn, a
synthetic dataset carefully created through controlled perturbations of
high-quality papers, and LimitGen-Human, a collection of real human-written
limitations. To improve the ability of LLM systems to identify limitations, we
augment them with literature retrieval, which is essential for grounding
identifying limitations in prior scientific findings. Our approach enhances the
capabilities of LLM systems to generate limitations in research papers,
enabling them to provide more concrete and constructive feedback.