NSF-SciFy: NSF 보조금 데이터베이스에서 과학적 주장 발굴
NSF-SciFy: Mining the NSF Awards Database for Scientific Claims
May 25, 2026
저자: Delip Rao, Weiqiu You, Eric Wong, Chris Callison-Burch
cs.AI
초록
NSF-SciFy를 소개합니다. 이는 국립과학재단(NSF) 보조금 요약문에서 추출된 과학적 주장과 연구 제안들로 구성된 포괄적인 데이터셋입니다. 기존의 과학적 주장 검증 데이터셋은 규모와 범위에서 제한적이었던 반면, NSF-SciFy는 모든 과학 및 수학 분야를 아우르는 40만 개의 요약문에서 280만 개의 주장을 추출하여 중요한 진전을 나타냅니다. 두 개의 집중된 하위 집합을 제시합니다: 재료과학 분야 보조금에서 나온 114,000개 주장을 포함하는 NSF-SciFy-MatSci, 그리고 5개 NSF 국장단에 걸친 135,000개 주장으로 구성된 NSF-SciFy-20K입니다. 제로샷 프롬프팅을 활용하여 과학적 주장과 연구 제안의 공동 추출을 위한 확장 가능한 접근법을 개발했습니다. 세 가지 하위 작업(비기술적 요약 생성, 주장 추출, 연구 제안 추출)을 통해 데이터셋의 유용성을 입증했습니다. 우리의 데이터셋으로 언어 모델을 미세 조정했을 때, 특히 주장 및 제안 추출 작업에서 상대적 향상이 종종 100%를 초과하는 상당한 개선을 보였습니다. 오류 분석 결과, 추출된 주장은 높은 정밀도를 보였으나 낮은 재현율을 나타내어 추가적인 방법론적 개선의 여지가 있음을 시사합니다. NSF-SciFy는 대규모 주장 검증, 과학적 발견 추적, 메타과학 분석 분야에서 새로운 연구 방향을 가능하게 합니다. 코드와 데이터는 https://github.com/darpa-scify/NSFSciFy에서 확인할 수 있습니다.
English
We introduce NSF-SciFy, a comprehensive dataset of scientific claims and investigation proposals extracted from National Science Foundation award abstracts. While previous scientific claim verification datasets have been limited in size and scope, NSF-SciFy represents a significant advance with 2.8 million claims from 400,000 abstracts spanning all science and mathematics disciplines. We present two focused subsets: NSF-SciFy-MatSci with 114,000 claims from materials science awards, and NSF-SciFy-20K with 135,000 claims across five NSF directorates. Using zero-shot prompting, we develop a scalable approach for joint extraction of scientific claims and investigation proposals. We demonstrate the dataset's utility through three downstream tasks: non-technical abstract generation, claim extraction, and investigation proposal extraction. Fine-tuning language models on our dataset yields substantial improvements, with relative gains often exceeding 100%, particularly for claim and proposal extraction tasks. Our error analysis reveals that extracted claims exhibit high precision but lower recall, suggesting opportunities for further methodological refinement. NSF-SciFy enables new research directions in large-scale claim verification, scientific discovery tracking, and meta-scientific analysis. Code and data are available at https://github.com/darpa-scify/NSFSciFy.