ChatPaper.aiChatPaper

NSF-SciFy : Fouille de la base de données des subventions NSF pour les affirmations scientifiques

NSF-SciFy: Mining the NSF Awards Database for Scientific Claims

May 25, 2026
Auteurs: Delip Rao, Weiqiu You, Eric Wong, Chris Callison-Burch
cs.AI

Résumé

Nous présentons NSF-SciFy, un ensemble de données complet d'affirmations scientifiques et de propositions d'investigation extraites des résumés de projets de la National Science Foundation. Alors que les précédents ensembles de données de vérification d'affirmations scientifiques étaient limités en taille et en portée, NSF-SciFy constitue une avancée significative avec 2,8 millions d'affirmations provenant de 400 000 résumés couvrant toutes les disciplines scientifiques et mathématiques. Nous proposons deux sous-ensembles ciblés : NSF-SciFy-MatSci, avec 114 000 affirmations issues de projets en science des matériaux, et NSF-SciFy-20K, comprenant 135 000 affirmations réparties sur cinq directions de la NSF. En utilisant l'incitation zero-shot, nous développons une approche évolutive pour l'extraction conjointe d'affirmations scientifiques et de propositions d'investigation. Nous démontrons l'utilité de cet ensemble de données à travers trois tâches en aval : la génération de résumés non techniques, l'extraction d'affirmations et l'extraction de propositions d'investigation. Le réglage fin des modèles de langage sur notre ensemble de données entraîne des améliorations substantielles, avec des gains relatifs dépassant souvent 100 %, en particulier pour les tâches d'extraction d'affirmations et de propositions. Notre analyse des erreurs révèle que les affirmations extraites présentent une précision élevée mais un rappel plus faible, ce qui suggère des possibilités d'affinement méthodologique supplémentaire. NSF-SciFy ouvre de nouvelles pistes de recherche dans la vérification d'affirmations à grande échelle, le suivi des découvertes scientifiques et l'analyse métascientifique. Le code et les données sont disponibles à l'adresse https://github.com/darpa-scify/NSFSciFy.
English
We introduce NSF-SciFy, a comprehensive dataset of scientific claims and investigation proposals extracted from National Science Foundation award abstracts. While previous scientific claim verification datasets have been limited in size and scope, NSF-SciFy represents a significant advance with 2.8 million claims from 400,000 abstracts spanning all science and mathematics disciplines. We present two focused subsets: NSF-SciFy-MatSci with 114,000 claims from materials science awards, and NSF-SciFy-20K with 135,000 claims across five NSF directorates. Using zero-shot prompting, we develop a scalable approach for joint extraction of scientific claims and investigation proposals. We demonstrate the dataset's utility through three downstream tasks: non-technical abstract generation, claim extraction, and investigation proposal extraction. Fine-tuning language models on our dataset yields substantial improvements, with relative gains often exceeding 100%, particularly for claim and proposal extraction tasks. Our error analysis reveals that extracted claims exhibit high precision but lower recall, suggesting opportunities for further methodological refinement. NSF-SciFy enables new research directions in large-scale claim verification, scientific discovery tracking, and meta-scientific analysis. Code and data are available at https://github.com/darpa-scify/NSFSciFy.