Os LLMs Podem Identificar Limitações Críticas em Pesquisas Científicas? Uma Avaliação Sistemática em Artigos de Pesquisa em IA
Can LLMs Identify Critical Limitations within Scientific Research? A Systematic Evaluation on AI Research Papers
July 3, 2025
Autores: Zhijian Xu, Yilun Zhao, Manasi Patwardhan, Lovekesh Vig, Arman Cohan
cs.AI
Resumo
A revisão por pares é fundamental para a pesquisa científica, mas o volume crescente de publicações tem intensificado os desafios desse processo que demanda expertise. Embora os LLMs (Large Language Models) mostrem potencial em várias tarefas científicas, sua capacidade de auxiliar na revisão por pares, particularmente na identificação de limitações em artigos, ainda é pouco estudada. Primeiro, apresentamos uma taxonomia abrangente de tipos de limitações na pesquisa científica, com foco em IA. Guiados por essa taxonomia, para o estudo de limitações, apresentamos o LimitGen, o primeiro benchmark abrangente para avaliar a capacidade dos LLMs de fornecer feedback em estágios iniciais e complementar a revisão por pares humana. Nosso benchmark consiste em dois subconjuntos: LimitGen-Syn, um conjunto de dados sintético cuidadosamente criado por meio de perturbações controladas de artigos de alta qualidade, e LimitGen-Human, uma coleção de limitações reais escritas por humanos. Para melhorar a capacidade dos sistemas de LLM em identificar limitações, os aprimoramos com recuperação de literatura, essencial para fundamentar a identificação de limitações em descobertas científicas anteriores. Nossa abordagem amplia a capacidade dos sistemas de LLM de gerar limitações em artigos de pesquisa, permitindo que forneçam feedback mais concreto e construtivo.
English
Peer review is fundamental to scientific research, but the growing volume of
publications has intensified the challenges of this expertise-intensive
process. While LLMs show promise in various scientific tasks, their potential
to assist with peer review, particularly in identifying paper limitations,
remains understudied. We first present a comprehensive taxonomy of limitation
types in scientific research, with a focus on AI. Guided by this taxonomy, for
studying limitations, we present LimitGen, the first comprehensive benchmark
for evaluating LLMs' capability to support early-stage feedback and complement
human peer review. Our benchmark consists of two subsets: LimitGen-Syn, a
synthetic dataset carefully created through controlled perturbations of
high-quality papers, and LimitGen-Human, a collection of real human-written
limitations. To improve the ability of LLM systems to identify limitations, we
augment them with literature retrieval, which is essential for grounding
identifying limitations in prior scientific findings. Our approach enhances the
capabilities of LLM systems to generate limitations in research papers,
enabling them to provide more concrete and constructive feedback.