NSF-SciFy: Delven van wetenschappelijke claims uit de NSF-subsidiedatabase
NSF-SciFy: Mining the NSF Awards Database for Scientific Claims
May 25, 2026
Auteurs: Delip Rao, Weiqiu You, Eric Wong, Chris Callison-Burch
cs.AI
Samenvatting
Wij introduceren NSF-SciFy, een uitgebreide dataset van wetenschappelijke beweringen en onderzoeksvoorstellen, geëxtraheerd uit toekenningssamenvattingen van de National Science Foundation. Hoewel eerdere datasets voor verificatie van wetenschappelijke beweringen beperkt waren in omvang en reikwijdte, vertegenwoordigt NSF-SciFy een significante vooruitgang met 2,8 miljoen beweringen uit 400.000 samenvattingen die alle wetenschaps- en wiskundedisciplines bestrijken. Wij presenteren twee gerichte subsets: NSF-SciFy-MatSci met 114.000 beweringen uit materiaalwetenschappelijke toekenningen, en NSF-SciFy-20K met 135.000 beweringen uit vijf NSF-directoraten. Met behulp van zero-shot prompting ontwikkelen wij een schaalbare aanpak voor gezamenlijke extractie van wetenschappelijke beweringen en onderzoeksvoorstellen. Wij demonstreren het nut van de dataset via drie stroomafwaartse taken: niet-technische samenvattingsgeneratie, beweringsextractie en onderzoeksvoorstelextractie. Het fine-tunen van taalmodellen op onze dataset levert aanzienlijke verbeteringen op, met relatieve winsten die vaak meer dan 100% bedragen, met name voor extractietaken van beweringen en voorstellen. Onze foutenanalyse onthult dat geëxtraheerde beweringen een hoge precisie maar lagere recall vertonen, wat mogelijkheden suggereert voor verdere methodologische verfijning. NSF-SciFy maakt nieuwe onderzoeksrichtingen mogelijk in grootschalige beweringverificatie, het volgen van wetenschappelijke ontdekkingen en meta-wetenschappelijke analyse. Code en data zijn beschikbaar op https://github.com/darpa-scify/NSFSciFy.
English
We introduce NSF-SciFy, a comprehensive dataset of scientific claims and investigation proposals extracted from National Science Foundation award abstracts. While previous scientific claim verification datasets have been limited in size and scope, NSF-SciFy represents a significant advance with 2.8 million claims from 400,000 abstracts spanning all science and mathematics disciplines. We present two focused subsets: NSF-SciFy-MatSci with 114,000 claims from materials science awards, and NSF-SciFy-20K with 135,000 claims across five NSF directorates. Using zero-shot prompting, we develop a scalable approach for joint extraction of scientific claims and investigation proposals. We demonstrate the dataset's utility through three downstream tasks: non-technical abstract generation, claim extraction, and investigation proposal extraction. Fine-tuning language models on our dataset yields substantial improvements, with relative gains often exceeding 100%, particularly for claim and proposal extraction tasks. Our error analysis reveals that extracted claims exhibit high precision but lower recall, suggesting opportunities for further methodological refinement. NSF-SciFy enables new research directions in large-scale claim verification, scientific discovery tracking, and meta-scientific analysis. Code and data are available at https://github.com/darpa-scify/NSFSciFy.