ChatPaper.aiChatPaper

NSF-SciFy: Gewinnung wissenschaftlicher Behauptungen aus der NSF-Award-Datenbank

NSF-SciFy: Mining the NSF Awards Database for Scientific Claims

May 25, 2026
Autoren: Delip Rao, Weiqiu You, Eric Wong, Chris Callison-Burch
cs.AI

Zusammenfassung

Wir stellen NSF-SciFy vor, einen umfassenden Datensatz wissenschaftlicher Behauptungen und Untersuchungsvorschläge, die aus Zusammenfassungen von Förderprojekten der National Science Foundation (NSF) extrahiert wurden. Während frühere Datensätze zur Verifikation wissenschaftlicher Behauptungen in Größe und Umfang begrenzt waren, stellt NSF-SciFy einen bedeutenden Fortschritt dar: 2,8 Millionen Behauptungen aus 400.000 Zusammenfassungen, die alle wissenschaftlichen und mathematischen Disziplinen abdecken. Wir präsentieren zwei fokussierte Teilmengen: NSF-SciFy-MatSci mit 114.000 Behauptungen aus Materialwissenschaftsprojekten und NSF-SciFy-20K mit 135.000 Behauptungen aus fünf NSF-Direktoraten. Mittels Zero-Shot-Prompting entwickeln wir einen skalierbaren Ansatz zur gemeinsamen Extraktion wissenschaftlicher Behauptungen und Untersuchungsvorschläge. Die Nützlichkeit des Datensatzes demonstrieren wir anhand dreier nachgelagerter Aufgaben: Generierung nicht-technischer Zusammenfassungen, Extraktion von Behauptungen sowie Extraktion von Untersuchungsvorschlägen. Das Feintuning von Sprachmodellen auf unserem Datensatz führt zu erheblichen Verbesserungen, wobei die relativen Zuwächse oft über 100 % liegen, insbesondere bei Aufgaben zur Extraktion von Behauptungen und Vorschlägen. Unsere Fehleranalyse zeigt, dass die extrahierten Behauptungen eine hohe Präzision, aber eine geringere Trefferquote aufweisen, was auf Möglichkeiten zur weiteren methodischen Verfeinerung hindeutet. NSF-SciFy ermöglicht neue Forschungsrichtungen in der groß angelegten Behauptungsverifikation, der Verfolgung wissenschaftlicher Entdeckungen und der metawissenschaftlichen Analyse. Code und Daten sind verfügbar unter https://github.com/darpa-scify/NSFSciFy.
English
We introduce NSF-SciFy, a comprehensive dataset of scientific claims and investigation proposals extracted from National Science Foundation award abstracts. While previous scientific claim verification datasets have been limited in size and scope, NSF-SciFy represents a significant advance with 2.8 million claims from 400,000 abstracts spanning all science and mathematics disciplines. We present two focused subsets: NSF-SciFy-MatSci with 114,000 claims from materials science awards, and NSF-SciFy-20K with 135,000 claims across five NSF directorates. Using zero-shot prompting, we develop a scalable approach for joint extraction of scientific claims and investigation proposals. We demonstrate the dataset's utility through three downstream tasks: non-technical abstract generation, claim extraction, and investigation proposal extraction. Fine-tuning language models on our dataset yields substantial improvements, with relative gains often exceeding 100%, particularly for claim and proposal extraction tasks. Our error analysis reveals that extracted claims exhibit high precision but lower recall, suggesting opportunities for further methodological refinement. NSF-SciFy enables new research directions in large-scale claim verification, scientific discovery tracking, and meta-scientific analysis. Code and data are available at https://github.com/darpa-scify/NSFSciFy.