CC30k: un dataset di contesti di citazione per l'analisi del sentimento orientata alla riproducibilità
CC30k: A Citation Contexts Dataset for Reproducibility-Oriented Sentiment Analysis
November 11, 2025
Autori: Rochana R. Obadage, Sarah M. Rajtmajer, Jian Wu
cs.AI
Abstract
I sentimenti riguardanti la riproducibilità dei paper citati nella letteratura downstream offrono prospettive comunitarie e si sono dimostrati un segnale promettente dell'effettiva riproducibilità dei risultati pubblicati. Per addestrare modelli efficaci a prevedere tali sentimenti orientati alla riproducibilità e studiare sistematicamente la loro correlazione con la riproducibilità stessa, presentiamo il dataset CC30k, che comprende un totale di 30.734 contesti di citazione tratti da articoli di machine learning. Ogni contesto di citazione è etichettato con uno di tre sentimenti orientati alla riproducibilità: Positivo, Negativo o Neutro, riflettendo la riproducibilità o replicabilità percepita del lavoro citato. Di questi, 25.829 sono etichettati tramite crowdsourcing, integrati da esempi negativi generati attraverso una pipeline controllata per contrastare la scarsità di etichette negative. A differenza dei tradizionali dataset per l'analisi del sentimento, CC30k si concentra sui sentimenti legati alla riproducibilità, colmando una lacuna di ricerca nelle risorse per gli studi computazionali sulla riproducibilità. Il dataset è stato creato attraverso una pipeline che include una robusta pulizia dei dati, un'attenta selezione dei crowdworker e una validazione approfondita. Il dataset risultante raggiunge un'accuratezza di etichettatura del 94%. Abbiamo quindi dimostrato che le prestazioni di tre grandi modelli linguistici migliorano significativamente nella classificazione del sentimento orientato alla riproducibilità dopo un fine-tuning utilizzando il nostro dataset. Il dataset getta le basi per valutazioni su larga scala della riproducibilità degli articoli di machine learning. Il dataset CC30k e i notebook Jupyter utilizzati per produrre e analizzare il dataset sono disponibili pubblicamente all'indirizzo https://github.com/lamps-lab/CC30k.
English
Sentiments about the reproducibility of cited papers in downstream literature offer community perspectives and have shown as a promising signal of the actual reproducibility of published findings. To train effective models to effectively predict reproducibility-oriented sentiments and further systematically study their correlation with reproducibility, we introduce the CC30k dataset, comprising a total of 30,734 citation contexts in machine learning papers. Each citation context is labeled with one of three reproducibility-oriented sentiment labels: Positive, Negative, or Neutral, reflecting the cited paper's perceived reproducibility or replicability. Of these, 25,829 are labeled through crowdsourcing, supplemented with negatives generated through a controlled pipeline to counter the scarcity of negative labels. Unlike traditional sentiment analysis datasets, CC30k focuses on reproducibility-oriented sentiments, addressing a research gap in resources for computational reproducibility studies. The dataset was created through a pipeline that includes robust data cleansing, careful crowd selection, and thorough validation. The resulting dataset achieves a labeling accuracy of 94%. We then demonstrated that the performance of three large language models significantly improves on the reproducibility-oriented sentiment classification after fine-tuning using our dataset. The dataset lays the foundation for large-scale assessments of the reproducibility of machine learning papers. The CC30k dataset and the Jupyter notebooks used to produce and analyze the dataset are publicly available at https://github.com/lamps-lab/CC30k .