ChatPaper.aiChatPaper

CC30k: Een dataset van citatiecontexten voor reproduceerbaarheidsgerichte sentimentanalyse

CC30k: A Citation Contexts Dataset for Reproducibility-Oriented Sentiment Analysis

November 11, 2025
Auteurs: Rochana R. Obadage, Sarah M. Rajtmajer, Jian Wu
cs.AI

Samenvatting

Sentimenten over de reproduceerbaarheid van geciteerde artikelen in downstream literatuur bieden gemeenschapsperspectieven en blijken een veelbelovende indicator voor de daadwerkelijke reproduceerbaarheid van gepubliceerde bevindingen. Om effectieve modellen te trainen die reproduceerbaarheidsgerichte sentimenten accuraat kunnen voorspellen en hun correlatie met reproduceerbaarheid systematisch te bestuderen, introduceren we de CC30k-dataset. Deze dataset omvat in totaal 30.734 citatiecontexten uit wetenschappelijke artikelen over machine learning. Elke citatiecontext is gelabeld met een van drie reproduceerbaarheidsgerichte sentimentlabels: Positief, Negatief of Neutraal, wat de waargenomen reproduceerbaarheid of repliceerbaarheid van het geciteerde artikel weerspiegelt. Hiervan zijn 25.829 gelabeld via crowdsourcing, aangevuld met negatieve voorbeelden gegenereerd via een gecontroleerde pijplijn om het tekort aan negatieve labels tegen te gaan. In tegenstelling tot traditionele sentimentanalyse-datasets richt CC30k zich specifiek op reproduceerbaarheidsgerichte sentimenten, waardoor een onderzoekslacune wordt opgevuld voor bronnen voor computationele reproduceerbaarheidsstudies. De dataset werd gecreëerd via een pijplijn die robuuste datareiniging, zorgvuldige selectie van crowdwerkers en grondige validatie omvat. De resulterende dataset bereikt een labelnauwkeurigheid van 94%. Vervolgens toonden we aan dat de prestaties van drie grote taalmodellen significant verbeteren voor de reproduceerbaarheidsgerichte sentimentclassificatie na fine-tuning met onze dataset. De dataset legt de basis voor grootschalige beoordelingen van de reproduceerbaarheid van machine learning-artikelen. De CC30k-dataset en de Jupyter notebooks die gebruikt zijn om de dataset te produceren en analyseren, zijn openbaar beschikbaar op https://github.com/lamps-lab/CC30k.
English
Sentiments about the reproducibility of cited papers in downstream literature offer community perspectives and have shown as a promising signal of the actual reproducibility of published findings. To train effective models to effectively predict reproducibility-oriented sentiments and further systematically study their correlation with reproducibility, we introduce the CC30k dataset, comprising a total of 30,734 citation contexts in machine learning papers. Each citation context is labeled with one of three reproducibility-oriented sentiment labels: Positive, Negative, or Neutral, reflecting the cited paper's perceived reproducibility or replicability. Of these, 25,829 are labeled through crowdsourcing, supplemented with negatives generated through a controlled pipeline to counter the scarcity of negative labels. Unlike traditional sentiment analysis datasets, CC30k focuses on reproducibility-oriented sentiments, addressing a research gap in resources for computational reproducibility studies. The dataset was created through a pipeline that includes robust data cleansing, careful crowd selection, and thorough validation. The resulting dataset achieves a labeling accuracy of 94%. We then demonstrated that the performance of three large language models significantly improves on the reproducibility-oriented sentiment classification after fine-tuning using our dataset. The dataset lays the foundation for large-scale assessments of the reproducibility of machine learning papers. The CC30k dataset and the Jupyter notebooks used to produce and analyze the dataset are publicly available at https://github.com/lamps-lab/CC30k .
PDF22December 1, 2025