NSF-SciFy: Minería de la Base de Datos de Premios de la NSF para Afirmaciones Científicas
NSF-SciFy: Mining the NSF Awards Database for Scientific Claims
May 25, 2026
Autores: Delip Rao, Weiqiu You, Eric Wong, Chris Callison-Burch
cs.AI
Resumen
Presentamos NSF-SciFy, un conjunto de datos exhaustivo de afirmaciones científicas y propuestas de investigación extraídas de resúmenes de subvenciones de la National Science Foundation. Mientras que conjuntos de datos previos para la verificación de afirmaciones científicas han sido limitados en tamaño y alcance, NSF-SciFy representa un avance significativo con 2,8 millones de afirmaciones provenientes de 400.000 resúmenes que abarcan todas las disciplinas científicas y matemáticas. Presentamos dos subconjuntos enfocados: NSF-SciFy-MatSci, con 114.000 afirmaciones de subvenciones en ciencia de materiales, y NSF-SciFy-20K, con 135.000 afirmaciones distribuidas en cinco direcciones de la NSF. Mediante el uso de prompting con cero ejemplos, desarrollamos un enfoque escalable para la extracción conjunta de afirmaciones científicas y propuestas de investigación. Demostramos la utilidad del conjunto de datos a través de tres tareas posteriores: generación de resúmenes no técnicos, extracción de afirmaciones y extracción de propuestas de investigación. El ajuste fino de modelos de lenguaje con nuestro conjunto de datos produce mejoras sustanciales, con ganancias relativas que a menudo superan el 100%, particularmente en las tareas de extracción de afirmaciones y propuestas. Nuestro análisis de errores revela que las afirmaciones extraídas presentan alta precisión pero menor exhaustividad, lo que sugiere oportunidades para un mayor refinamiento metodológico. NSF-SciFy posibilita nuevas direcciones de investigación en verificación de afirmaciones a gran escala, seguimiento de descubrimientos científicos y análisis meta-científico. El código y los datos están disponibles en https://github.com/darpa-scify/NSFSciFy.
English
We introduce NSF-SciFy, a comprehensive dataset of scientific claims and investigation proposals extracted from National Science Foundation award abstracts. While previous scientific claim verification datasets have been limited in size and scope, NSF-SciFy represents a significant advance with 2.8 million claims from 400,000 abstracts spanning all science and mathematics disciplines. We present two focused subsets: NSF-SciFy-MatSci with 114,000 claims from materials science awards, and NSF-SciFy-20K with 135,000 claims across five NSF directorates. Using zero-shot prompting, we develop a scalable approach for joint extraction of scientific claims and investigation proposals. We demonstrate the dataset's utility through three downstream tasks: non-technical abstract generation, claim extraction, and investigation proposal extraction. Fine-tuning language models on our dataset yields substantial improvements, with relative gains often exceeding 100%, particularly for claim and proposal extraction tasks. Our error analysis reveals that extracted claims exhibit high precision but lower recall, suggesting opportunities for further methodological refinement. NSF-SciFy enables new research directions in large-scale claim verification, scientific discovery tracking, and meta-scientific analysis. Code and data are available at https://github.com/darpa-scify/NSFSciFy.