CC30k : un jeu de données de contextes de citation pour l'analyse de sentiments axée sur la reproductibilité
CC30k: A Citation Contexts Dataset for Reproducibility-Oriented Sentiment Analysis
November 11, 2025
papers.authors: Rochana R. Obadage, Sarah M. Rajtmajer, Jian Wu
cs.AI
papers.abstract
Les sentiments exprimés dans la littérature secondaire concernant la reproductibilité des articles cités offrent des perspectives communautaires et se sont révélés être un indicateur prometteur de la reproductibilité réelle des résultats publiés. Pour entraîner des modèles efficaces à prédire ces sentiments axés sur la reproductibilité et étudier systématiquement leur corrélation avec celle-ci, nous présentons le jeu de données CC30k, comprenant 30 734 contextes de citation issus d'articles d'apprentissage automatique. Chaque contexte de citation est annoté avec l'un des trois sentiments liés à la reproductibilité : Positif, Négatif ou Neutre, reflétant la reproductibilité ou la réplicabilité perçue de l'article cité. Parmi ceux-ci, 25 829 sont annotés via du crowdsourcing, complétés par des exemples négatifs générés par un pipeline contrôlé pour pallier la rareté des annotations négatives. Contrairement aux jeux de données d'analyse de sentiments traditionnels, CC30k se concentre sur les sentiments liés à la reproductibilité, comblant un manque de ressources pour les études computationnelles sur la reproductibilité. Le jeu de données a été créé via un pipeline incluant un nettoyage robuste des données, une sélection rigoureuse des annotateurs et une validation approfondie. Le jeu de données résultant atteint une précision d'annotation de 94 %. Nous avons ensuite démontré que les performances de trois grands modèles de langage s'améliorent significativement pour la classification des sentiments axés sur la reproductibilité après un affinage utilisant notre jeu de données. Ce dernier jette les bases d'évaluations à grande échelle de la reproductibilité des articles en apprentissage automatique. Le jeu de données CC30k et les notebooks Jupyter utilisés pour le produire et l'analyser sont disponibles publiquement à l'adresse https://github.com/lamps-lab/CC30k.
English
Sentiments about the reproducibility of cited papers in downstream literature offer community perspectives and have shown as a promising signal of the actual reproducibility of published findings. To train effective models to effectively predict reproducibility-oriented sentiments and further systematically study their correlation with reproducibility, we introduce the CC30k dataset, comprising a total of 30,734 citation contexts in machine learning papers. Each citation context is labeled with one of three reproducibility-oriented sentiment labels: Positive, Negative, or Neutral, reflecting the cited paper's perceived reproducibility or replicability. Of these, 25,829 are labeled through crowdsourcing, supplemented with negatives generated through a controlled pipeline to counter the scarcity of negative labels. Unlike traditional sentiment analysis datasets, CC30k focuses on reproducibility-oriented sentiments, addressing a research gap in resources for computational reproducibility studies. The dataset was created through a pipeline that includes robust data cleansing, careful crowd selection, and thorough validation. The resulting dataset achieves a labeling accuracy of 94%. We then demonstrated that the performance of three large language models significantly improves on the reproducibility-oriented sentiment classification after fine-tuning using our dataset. The dataset lays the foundation for large-scale assessments of the reproducibility of machine learning papers. The CC30k dataset and the Jupyter notebooks used to produce and analyze the dataset are publicly available at https://github.com/lamps-lab/CC30k .