CC30k: 재현성 지향 감성 분석을 위한 인용 문맥 데이터셋
CC30k: A Citation Contexts Dataset for Reproducibility-Oriented Sentiment Analysis
November 11, 2025
저자: Rochana R. Obadage, Sarah M. Rajtmajer, Jian Wu
cs.AI
초록
하위 연구에서 인용된 논문의 재현 가능성에 대한 감성은 커뮤니티의 관점을 제공하며, 발표된 연구 결과의 실제 재현 가능성을 나타내는 유망한 지표로 입증되었습니다. 재현 가능성 지향 감성을 효과적으로 예측하고 재현 가능성과의 상관관계를 체계적으로 연구하기 위한 효과적인 모델을 훈련시키기 위해, 우리는 머신러닝 논문의 총 30,734개 인용 문맥으로 구성된 CC30k 데이터셋을 소개합니다. 각 인용 문맥은 인용된 논문의 인지된 재현 가능성 또는 반복 가능성을 반영하는 세 가지 재현 가능성 지향 감성 레이블(긍정, 부정, 중립) 중 하나로 분류됩니다. 이 중 25,829개는 크라우드소싱을 통해 레이블이 지정되었으며, 부정 레이블의 부족 문제를 해결하기 위해 통제된 파이프라인을 통해 생성된 부정 샘플로 보완되었습니다. 기존 감성 분석 데이터셋과 달리 CC30k는 재현 가능성 지향 감성에 초점을 맞추어 계산적 재현 가능성 연구를 위한 자원 부족이라는 연구 격차를 해소합니다. 이 데이터셋은 강력한 데이터 정제, 신중한 크라우드 작업자 선별, 철저한 검증을 포함하는 파이프라인을 통해 생성되었습니다. 결과적으로 데이터셋의 레이블링 정확도는 94%에 달합니다. 우리는 이후 세 가지 대규모 언어 모델이 본 데이터셋을 사용한 미세 조정 후 재현 가능성 지향 감성 분류 성능이 크게 향상됨을 입증했습니다. 이 데이터셋은 머신러닝 논문의 대규모 재현 가능성 평가를 위한 기반을 마련합니다. CC30k 데이터셋과 데이터셋 생성 및 분석에 사용된 Jupyter 노트북은 https://github.com/lamps-lab/CC30k 에서 공개적으로 이용 가능합니다.
English
Sentiments about the reproducibility of cited papers in downstream literature offer community perspectives and have shown as a promising signal of the actual reproducibility of published findings. To train effective models to effectively predict reproducibility-oriented sentiments and further systematically study their correlation with reproducibility, we introduce the CC30k dataset, comprising a total of 30,734 citation contexts in machine learning papers. Each citation context is labeled with one of three reproducibility-oriented sentiment labels: Positive, Negative, or Neutral, reflecting the cited paper's perceived reproducibility or replicability. Of these, 25,829 are labeled through crowdsourcing, supplemented with negatives generated through a controlled pipeline to counter the scarcity of negative labels. Unlike traditional sentiment analysis datasets, CC30k focuses on reproducibility-oriented sentiments, addressing a research gap in resources for computational reproducibility studies. The dataset was created through a pipeline that includes robust data cleansing, careful crowd selection, and thorough validation. The resulting dataset achieves a labeling accuracy of 94%. We then demonstrated that the performance of three large language models significantly improves on the reproducibility-oriented sentiment classification after fine-tuning using our dataset. The dataset lays the foundation for large-scale assessments of the reproducibility of machine learning papers. The CC30k dataset and the Jupyter notebooks used to produce and analyze the dataset are publicly available at https://github.com/lamps-lab/CC30k .