ChatPaper.aiChatPaper

CC30k: Ein Datensatz von Zitationskontexten für reproduzierbarkeitsorientierte Sentimentanalyse

CC30k: A Citation Contexts Dataset for Reproducibility-Oriented Sentiment Analysis

November 11, 2025
papers.authors: Rochana R. Obadage, Sarah M. Rajtmajer, Jian Wu
cs.AI

papers.abstract

Stimmungen bezüglich der Reproduzierbarkeit zitierter Arbeiten in nachfolgender Literatur bieten Gemeinschaftsperspektiven und haben sich als vielversprechendes Signal für die tatsächliche Reproduzierbarkeit veröffentlichter Ergebnisse erwiesen. Um effektive Modelle für die Vorhersage von reproduzierbarkeitsorientierten Stimmungen zu trainieren und deren Korrelation mit Reproduzierbarkeit systematisch zu untersuchen, stellen wir den CC30k-Datensatz vor, der insgesamt 30.734 Zitationskontexte aus Publikationen zum maschinellen Lernen umfasst. Jeder Zitationskontext ist mit einem von drei reproduzierbarkeitsorientierten Stimmungslabels versehen: Positiv, Negativ oder Neutral, was die wahrgenommene Reproduzierbarkeit oder Replizierbarkeit der zitierten Arbeit widerspiegelt. Davon wurden 25.829 Kontexte durch Crowdsourcing annotiert, ergänzt durch Negativbeispiele, die durch eine kontrollierte Pipeline generiert wurden, um den Mangel an negativen Labels auszugleichen. Im Gegensatz zu traditionellen Stimmungsanalysedatensätzen konzentriert sich CC30k auf reproduzierbarkeitsorientierte Stimmungen und schließt damit eine Forschungslücke bei Ressourcen für computergestützte Reproduzierbarkeitsstudien. Der Datensatz wurde durch eine Pipeline erstellt, die robuste Datenbereinigung, sorgfältige Crowd-Auswahl und gründliche Validierung umfasst. Der resultierende Datensatz erreicht eine Labelgenauigkeit von 94%. Wir zeigten anschließend, dass sich die Leistung von drei großen Sprachmodellen bei der Klassifikation reproduzierbarkeitsorientierter Stimmungen nach dem Fine-Tuning mit unserem Datensatz signifikant verbessert. Der Datensatz bildet die Grundlage für groß angelegte Bewertungen der Reproduzierbarkeit von Publikationen im Bereich des maschinellen Lernens. Der CC30k-Datensatz und die zur Erstellung und Analyse des Datensatzes verwendeten Jupyter-Notebooks sind öffentlich unter https://github.com/lamps-lab/CC30k verfügbar.
English
Sentiments about the reproducibility of cited papers in downstream literature offer community perspectives and have shown as a promising signal of the actual reproducibility of published findings. To train effective models to effectively predict reproducibility-oriented sentiments and further systematically study their correlation with reproducibility, we introduce the CC30k dataset, comprising a total of 30,734 citation contexts in machine learning papers. Each citation context is labeled with one of three reproducibility-oriented sentiment labels: Positive, Negative, or Neutral, reflecting the cited paper's perceived reproducibility or replicability. Of these, 25,829 are labeled through crowdsourcing, supplemented with negatives generated through a controlled pipeline to counter the scarcity of negative labels. Unlike traditional sentiment analysis datasets, CC30k focuses on reproducibility-oriented sentiments, addressing a research gap in resources for computational reproducibility studies. The dataset was created through a pipeline that includes robust data cleansing, careful crowd selection, and thorough validation. The resulting dataset achieves a labeling accuracy of 94%. We then demonstrated that the performance of three large language models significantly improves on the reproducibility-oriented sentiment classification after fine-tuning using our dataset. The dataset lays the foundation for large-scale assessments of the reproducibility of machine learning papers. The CC30k dataset and the Jupyter notebooks used to produce and analyze the dataset are publicly available at https://github.com/lamps-lab/CC30k .
PDF22December 1, 2025