CC30k: Набор данных цитатных контекстов для анализа тональности, ориентированного на воспроизводимость
CC30k: A Citation Contexts Dataset for Reproducibility-Oriented Sentiment Analysis
November 11, 2025
Авторы: Rochana R. Obadage, Sarah M. Rajtmajer, Jian Wu
cs.AI
Аннотация
Оценки воспроизводимости цитируемых статей в последующих публикациях отражают мнение научного сообщества и показали себя как перспективный индикатор фактической воспроизводимости опубликованных результатов. Для обучения эффективных моделей, способных прогнозировать настроения, связанные с воспроизводимостью, и систематического изучения их корреляции с фактической воспроизводимостью, мы представляем набор данных CC30k, содержащий 30 734 цитатных контекста из статей по машинному обучению. Каждый цитатный контекст размечен одной из трех меток настроения, ориентированных на воспроизводимость: Позитивный, Негативный или Нейтральный, что отражает воспринимаемую воспроизводимость или повторяемость цитируемой статьи. Из них 25 829 контекстов размечены с помощью краудсорсинга, дополненных негативными примерами, сгенерированными по контролируемому конвейеру для компенсации дефицита негативных меток. В отличие от традиционных наборов данных для анализа тональности, CC30k фокусируется на настроениях, связанных с воспроизводимостью, восполняя пробел в ресурсах для вычислительных исследований воспроизводимости. Набор данных создан с использованием конвейера, включающего robust-очистку данных, тщательный отбор участников краудсорсинга и всестороннюю валидацию. Результирующий набор данных достигает точности разметки 94%. Мы продемонстрировали, что производительность трех больших языковых моделей значительно улучшается в задаче классификации настроений, связанных с воспроизводимостью, после дообучения на нашем наборе данных. Набор данных закладывает основу для масштабной оценки воспроизводимости статей по машинному обучению. Набор данных CC30k и Jupyter notebooks, использованные для его создания и анализа, доступны по адресу https://github.com/lamps-lab/CC30k.
English
Sentiments about the reproducibility of cited papers in downstream literature offer community perspectives and have shown as a promising signal of the actual reproducibility of published findings. To train effective models to effectively predict reproducibility-oriented sentiments and further systematically study their correlation with reproducibility, we introduce the CC30k dataset, comprising a total of 30,734 citation contexts in machine learning papers. Each citation context is labeled with one of three reproducibility-oriented sentiment labels: Positive, Negative, or Neutral, reflecting the cited paper's perceived reproducibility or replicability. Of these, 25,829 are labeled through crowdsourcing, supplemented with negatives generated through a controlled pipeline to counter the scarcity of negative labels. Unlike traditional sentiment analysis datasets, CC30k focuses on reproducibility-oriented sentiments, addressing a research gap in resources for computational reproducibility studies. The dataset was created through a pipeline that includes robust data cleansing, careful crowd selection, and thorough validation. The resulting dataset achieves a labeling accuracy of 94%. We then demonstrated that the performance of three large language models significantly improves on the reproducibility-oriented sentiment classification after fine-tuning using our dataset. The dataset lays the foundation for large-scale assessments of the reproducibility of machine learning papers. The CC30k dataset and the Jupyter notebooks used to produce and analyze the dataset are publicly available at https://github.com/lamps-lab/CC30k .