CC30k: Un conjunto de datos de contextos de citas para análisis de sentimientos orientado a la reproducibilidad
CC30k: A Citation Contexts Dataset for Reproducibility-Oriented Sentiment Analysis
November 11, 2025
Autores: Rochana R. Obadage, Sarah M. Rajtmajer, Jian Wu
cs.AI
Resumen
Los sentimientos sobre la reproducibilidad de los artículos citados en la literatura posterior ofrecen perspectivas comunitarias y han demostrado ser una señal prometedora de la reproducibilidad real de los hallazgos publicados. Para entrenar modelos eficaces que predigan sistemáticamente los sentimientos orientados a la reproducibilidad y estudiar su correlación con esta, presentamos el conjunto de datos CC30k, que comprende un total de 30.734 contextos de citas en artículos de aprendizaje automático. Cada contexto de cita está etiquetado con una de tres categorías de sentimiento orientadas a la reproducibilidad: Positivo, Negativo o Neutral, lo que refleja la reproducibilidad o replicabilidad percibida del artículo citado. De estos, 25.829 han sido etiquetados mediante crowdsourcing, complementados con ejemplos negativos generados a través de un proceso controlado para contrarrestar la escasez de etiquetas negativas. A diferencia de los conjuntos de datos tradicionales de análisis de sentimientos, CC30k se centra en los sentimientos relacionados con la reproducibilidad, abordando un vacío investigativo en los recursos para los estudios de reproducibilidad computacional. El conjunto de datos se creó mediante un proceso que incluye una limpieza robusta de datos, una cuidadosa selección de anotadores y una validación exhaustiva. El conjunto de datos resultante alcanza una precisión de etiquetado del 94%. Posteriormente, demostramos que el rendimiento de tres modelos de lenguaje grandes mejora significativamente en la clasificación de sentimientos orientados a la reproducibilidad después de un ajuste fino utilizando nuestro conjunto de datos. Este conjunto de datos sienta las bases para evaluaciones a gran escala de la reproducibilidad de los artículos de aprendizaje automático. El conjunto de datos CC30k y los cuadernos de Jupyter utilizados para producirlo y analizarlo están disponibles públicamente en https://github.com/lamps-lab/CC30k.
English
Sentiments about the reproducibility of cited papers in downstream literature offer community perspectives and have shown as a promising signal of the actual reproducibility of published findings. To train effective models to effectively predict reproducibility-oriented sentiments and further systematically study their correlation with reproducibility, we introduce the CC30k dataset, comprising a total of 30,734 citation contexts in machine learning papers. Each citation context is labeled with one of three reproducibility-oriented sentiment labels: Positive, Negative, or Neutral, reflecting the cited paper's perceived reproducibility or replicability. Of these, 25,829 are labeled through crowdsourcing, supplemented with negatives generated through a controlled pipeline to counter the scarcity of negative labels. Unlike traditional sentiment analysis datasets, CC30k focuses on reproducibility-oriented sentiments, addressing a research gap in resources for computational reproducibility studies. The dataset was created through a pipeline that includes robust data cleansing, careful crowd selection, and thorough validation. The resulting dataset achieves a labeling accuracy of 94%. We then demonstrated that the performance of three large language models significantly improves on the reproducibility-oriented sentiment classification after fine-tuning using our dataset. The dataset lays the foundation for large-scale assessments of the reproducibility of machine learning papers. The CC30k dataset and the Jupyter notebooks used to produce and analyze the dataset are publicly available at https://github.com/lamps-lab/CC30k .