ChatPaper.aiChatPaper

NSF-SciFy: извлечение научных утверждений из базы данных грантов NSF

NSF-SciFy: Mining the NSF Awards Database for Scientific Claims

May 25, 2026
Авторы: Delip Rao, Weiqiu You, Eric Wong, Chris Callison-Burch
cs.AI

Аннотация

Мы представляем NSF-SciFy — комплексный набор данных научных утверждений и предложений по исследованиям, извлечённых из аннотаций грантов Национального научного фонда (NSF). Тогда как предыдущие наборы данных для верификации научных утверждений были ограничены по размеру и охвату, NSF-SciFy представляет собой значительный шаг вперёд, включая 2,8 миллиона утверждений из 400 000 аннотаций, охватывающих все научные и математические дисциплины. Мы предлагаем два специализированных подмножества: NSF-SciFy-MatSci, содержащий 114 000 утверждений из грантов по материаловедению, и NSF-SciFy-20K, включающий 135 000 утверждений из пяти директоратов NSF. Используя нулевое обучение, мы разработали масштабируемый подход для совместного извлечения научных утверждений и предложений по исследованиям. Мы демонстрируем полезность набора данных на трёх последующих задачах: генерация нетехнических аннотаций, извлечение утверждений и извлечение предложений по исследованиям. Дообучение языковых моделей на нашем наборе данных приводит к существенным улучшениям, причём относительный прирост часто превышает 100%, особенно для задач извлечения утверждений и предложений. Анализ ошибок показывает, что извлечённые утверждения обладают высокой точностью, но низкой полнотой, что указывает на возможности дальнейшего методологического совершенствования. NSF-SciFy открывает новые направления исследований в области крупномасштабной верификации утверждений, отслеживания научных открытий и метанаучного анализа. Код и данные доступны по адресу https://github.com/darpa-scify/NSFSciFy.
English
We introduce NSF-SciFy, a comprehensive dataset of scientific claims and investigation proposals extracted from National Science Foundation award abstracts. While previous scientific claim verification datasets have been limited in size and scope, NSF-SciFy represents a significant advance with 2.8 million claims from 400,000 abstracts spanning all science and mathematics disciplines. We present two focused subsets: NSF-SciFy-MatSci with 114,000 claims from materials science awards, and NSF-SciFy-20K with 135,000 claims across five NSF directorates. Using zero-shot prompting, we develop a scalable approach for joint extraction of scientific claims and investigation proposals. We demonstrate the dataset's utility through three downstream tasks: non-technical abstract generation, claim extraction, and investigation proposal extraction. Fine-tuning language models on our dataset yields substantial improvements, with relative gains often exceeding 100%, particularly for claim and proposal extraction tasks. Our error analysis reveals that extracted claims exhibit high precision but lower recall, suggesting opportunities for further methodological refinement. NSF-SciFy enables new research directions in large-scale claim verification, scientific discovery tracking, and meta-scientific analysis. Code and data are available at https://github.com/darpa-scify/NSFSciFy.