CC30k: Um Conjunto de Dados de Contextos de Citação para Análise de Sentimento Orientada à Reprodutibilidade

Resumo

Os sentimentos sobre a reprodutibilidade de artigos citados na literatura subsequente oferecem perspectivas da comunidade e demonstraram ser um sinal promissor da reprodutibilidade real de descobertas publicadas. Para treinar modelos eficazes que prevejam sentimentos orientados à reprodutibilidade e estudar sistematicamente sua correlação com a reprodutibilidade, introduzimos o conjunto de dados CC30k, composto por 30.734 contextos de citação em artigos de aprendizado de máquina. Cada contexto de citação é classificado com um de três rótulos de sentimento orientados à reprodutibilidade: Positivo, Negativo ou Neutro, refletindo a reprodutibilidade ou replicabilidade percebida do artigo citado. Destes, 25.829 são rotulados por meio de crowdsourcing, complementados com negativos gerados através de um pipeline controlado para contornar a escassez de rótulos negativos. Diferente de conjuntos de dados tradicionais de análise de sentimentos, o CC30k foca em sentimentos orientados à reprodutibilidade, abordando uma lacuna de pesquisa em recursos para estudos computacionais de reprodutibilidade. O conjunto de dados foi criado através de um pipeline que inclui robusta limpeza de dados, seleção criteriosa de colaboradores e validação abrangente. O conjunto de dados resultante atinge uma precisão de rotulagem de 94%. Demonstramos então que o desempenho de três grandes modelos de linguagem melhora significativamente na classificação de sentimentos orientados à reprodutibilidade após o ajuste fino usando nosso conjunto de dados. O conjunto de dados estabelece as bases para avaliações em larga escala da reprodutibilidade de artigos de aprendizado de máquina. O conjunto de dados CC30k e os notebooks Jupyter utilizados para produzi-lo e analisá-lo estão publicamente disponíveis em https://github.com/lamps-lab/CC30k.

English

Sentiments about the reproducibility of cited papers in downstream literature offer community perspectives and have shown as a promising signal of the actual reproducibility of published findings. To train effective models to effectively predict reproducibility-oriented sentiments and further systematically study their correlation with reproducibility, we introduce the CC30k dataset, comprising a total of 30,734 citation contexts in machine learning papers. Each citation context is labeled with one of three reproducibility-oriented sentiment labels: Positive, Negative, or Neutral, reflecting the cited paper's perceived reproducibility or replicability. Of these, 25,829 are labeled through crowdsourcing, supplemented with negatives generated through a controlled pipeline to counter the scarcity of negative labels. Unlike traditional sentiment analysis datasets, CC30k focuses on reproducibility-oriented sentiments, addressing a research gap in resources for computational reproducibility studies. The dataset was created through a pipeline that includes robust data cleansing, careful crowd selection, and thorough validation. The resulting dataset achieves a labeling accuracy of 94%. We then demonstrated that the performance of three large language models significantly improves on the reproducibility-oriented sentiment classification after fine-tuning using our dataset. The dataset lays the foundation for large-scale assessments of the reproducibility of machine learning papers. The CC30k dataset and the Jupyter notebooks used to produce and analyze the dataset are publicly available at https://github.com/lamps-lab/CC30k .