CC30k: 再現性志向の感情分析のための引用コンテキストデータセット
CC30k: A Citation Contexts Dataset for Reproducibility-Oriented Sentiment Analysis
November 11, 2025
著者: Rochana R. Obadage, Sarah M. Rajtmajer, Jian Wu
cs.AI
要旨
下流文献における引用論文の再現性に関するセンチメントは、コミュニティの視点を提供し、発表された研究成果の実際の再現性を示す有望なシグナルとして示されている。再現性指向のセンチメントを効果的に予測し、その再現性との相関をさらに体系的に研究するための効果的なモデルを訓練するために、我々は機械学習論文における合計30,734件の引用コンテキストから構成されるCC30kデータセットを導入する。各引用コンテキストは、引用論文の知覚された再現性または再現可能性を反映する、再現性指向のセンチメントラベル(Positive、Negative、Neutral)のいずれかで注釈付けられている。このうち25,829件はクラウドソーシングによりラベル付けされ、負例ラベルの不足に対処するために制御されたパイプラインを通じて生成された負例で補完されている。従来の感情分析データセットとは異なり、CC30kは再現性指向のセンチメントに焦点を当て、計算論的再現性研究のためのリソースにおける研究ギャップに対処する。本データセットは、堅牢なデータクレンジング、慎重なクラウドワーカーの選定、徹底的な検証を含むパイプラインを通じて作成された。結果として得られたデータセットのラベル付け精度は94%に達する。さらに、我々のデータセットを用いたファインチューニング後、3つの大規模言語モデルの再現性指向センチメント分類における性能が大幅に向上することを実証した。本データセットは、機械学習論文の再現性に関する大規模評価の基盤を築くものである。CC30kデータセットおよびデータセットの生成と分析に使用したJupyterノートブックは、https://github.com/lamps-lab/CC30k で公開されている。
English
Sentiments about the reproducibility of cited papers in downstream literature offer community perspectives and have shown as a promising signal of the actual reproducibility of published findings. To train effective models to effectively predict reproducibility-oriented sentiments and further systematically study their correlation with reproducibility, we introduce the CC30k dataset, comprising a total of 30,734 citation contexts in machine learning papers. Each citation context is labeled with one of three reproducibility-oriented sentiment labels: Positive, Negative, or Neutral, reflecting the cited paper's perceived reproducibility or replicability. Of these, 25,829 are labeled through crowdsourcing, supplemented with negatives generated through a controlled pipeline to counter the scarcity of negative labels. Unlike traditional sentiment analysis datasets, CC30k focuses on reproducibility-oriented sentiments, addressing a research gap in resources for computational reproducibility studies. The dataset was created through a pipeline that includes robust data cleansing, careful crowd selection, and thorough validation. The resulting dataset achieves a labeling accuracy of 94%. We then demonstrated that the performance of three large language models significantly improves on the reproducibility-oriented sentiment classification after fine-tuning using our dataset. The dataset lays the foundation for large-scale assessments of the reproducibility of machine learning papers. The CC30k dataset and the Jupyter notebooks used to produce and analyze the dataset are publicly available at https://github.com/lamps-lab/CC30k .