ChatPaper.aiChatPaper

NSF-SciFy: Mineração do Banco de Dados de Prêmios da NSF para Alegações Científicas

NSF-SciFy: Mining the NSF Awards Database for Scientific Claims

May 25, 2026
Autores: Delip Rao, Weiqiu You, Eric Wong, Chris Callison-Burch
cs.AI

Resumo

Apresentamos o NSF-SciFy, um conjunto de dados abrangente de alegações científicas e propostas de investigação extraídas de resumos de premiações da National Science Foundation. Embora conjuntos de dados anteriores de verificação de alegações científicas tenham sido limitados em tamanho e escopo, o NSF-SciFy representa um avanço significativo com 2,8 milhões de alegações provenientes de 400.000 resumos abrangendo todas as disciplinas de ciências e matemática. Apresentamos dois subconjuntos focados: NSF-SciFy-MatSci com 114.000 alegações de premiações de ciência dos materiais, e NSF-SciFy-20K com 135.000 alegações em cinco diretorias da NSF. Utilizando prompting zero-shot, desenvolvemos uma abordagem escalável para extração conjunta de alegações científicas e propostas de investigação. Demonstramos a utilidade do conjunto de dados por meio de três tarefas downstream: geração de resumo não técnico, extração de alegações e extração de propostas de investigação. O ajuste fino de modelos de linguagem em nosso conjunto de dados produz melhorias substanciais, com ganhos relativos frequentemente superiores a 100%, particularmente para tarefas de extração de alegações e propostas. Nossa análise de erros revela que as alegações extraídas exibem alta precisão, mas menor revocação, sugerindo oportunidades para refinamento metodológico adicional. O NSF-SciFy possibilita novas direções de pesquisa em verificação de alegações em larga escala, rastreamento de descobertas científicas e análise metacientífica. O código e os dados estão disponíveis em https://github.com/darpa-scify/NSFSciFy.
English
We introduce NSF-SciFy, a comprehensive dataset of scientific claims and investigation proposals extracted from National Science Foundation award abstracts. While previous scientific claim verification datasets have been limited in size and scope, NSF-SciFy represents a significant advance with 2.8 million claims from 400,000 abstracts spanning all science and mathematics disciplines. We present two focused subsets: NSF-SciFy-MatSci with 114,000 claims from materials science awards, and NSF-SciFy-20K with 135,000 claims across five NSF directorates. Using zero-shot prompting, we develop a scalable approach for joint extraction of scientific claims and investigation proposals. We demonstrate the dataset's utility through three downstream tasks: non-technical abstract generation, claim extraction, and investigation proposal extraction. Fine-tuning language models on our dataset yields substantial improvements, with relative gains often exceeding 100%, particularly for claim and proposal extraction tasks. Our error analysis reveals that extracted claims exhibit high precision but lower recall, suggesting opportunities for further methodological refinement. NSF-SciFy enables new research directions in large-scale claim verification, scientific discovery tracking, and meta-scientific analysis. Code and data are available at https://github.com/darpa-scify/NSFSciFy.