NSF-SciFy: NSF Awards Databaseからの科学的主張のマイニング
NSF-SciFy: Mining the NSF Awards Database for Scientific Claims
May 25, 2026
著者: Delip Rao, Weiqiu You, Eric Wong, Chris Callison-Burch
cs.AI
要旨
我々は、全米科学財団(NSF)の受賞アブストラクトから抽出された科学的主張と調査提案からなる包括的データセットであるNSF-SciFyを紹介する。従来の科学的クレーム検証データセットは規模と範囲が限られていたが、NSF-SciFyは全科学・数学分野にわたる40万件のアブストラクトから280万件のクレームを収録し、顕著な進歩を示す。我々は2つの焦点化されたサブセットを提示する。材料科学関連の受賞から114,000件のクレームを含むNSF-SciFy-MatSciと、5つのNSF部門にわたる135,000件のクレームを含むNSF-SciFy-20Kである。ゼロショットプロンプティングを用いて、科学的主張と調査提案の統合抽出のためのスケーラブルなアプローチを開発する。このデータセットの有用性を、非専門家向けアブストラクト生成、クレーム抽出、調査提案抽出という3つの下流タスクで実証する。当データセットで言語モデルをファインチューニングすると、特にクレーム抽出と提案抽出タスクにおいて、相対的な改善が100%を超えることが多いなど、大幅な性能向上が得られる。エラー分析により、抽出されたクレームは高い適合率を示す一方で再現率が低いことが明らかとなり、さらなる方法論的改善の余地があることを示唆している。NSF-SciFyは、大規模クレーム検証、科学的発見の追跡、メタ科学的分析における新たな研究方向を可能にする。コードとデータはhttps://github.com/darpa-scify/NSFSciFyで公開されている。
English
We introduce NSF-SciFy, a comprehensive dataset of scientific claims and investigation proposals extracted from National Science Foundation award abstracts. While previous scientific claim verification datasets have been limited in size and scope, NSF-SciFy represents a significant advance with 2.8 million claims from 400,000 abstracts spanning all science and mathematics disciplines. We present two focused subsets: NSF-SciFy-MatSci with 114,000 claims from materials science awards, and NSF-SciFy-20K with 135,000 claims across five NSF directorates. Using zero-shot prompting, we develop a scalable approach for joint extraction of scientific claims and investigation proposals. We demonstrate the dataset's utility through three downstream tasks: non-technical abstract generation, claim extraction, and investigation proposal extraction. Fine-tuning language models on our dataset yields substantial improvements, with relative gains often exceeding 100%, particularly for claim and proposal extraction tasks. Our error analysis reveals that extracted claims exhibit high precision but lower recall, suggesting opportunities for further methodological refinement. NSF-SciFy enables new research directions in large-scale claim verification, scientific discovery tracking, and meta-scientific analysis. Code and data are available at https://github.com/darpa-scify/NSFSciFy.