SciCoQA: Controllo di Qualità per l'Allineamento Codice--Articolo Scientifico

Abstract

Presentiamo SciCoQA, un dataset progettato per rilevare le discrepanze tra le pubblicazioni scientifiche e i relativi codebase, al fine di garantire implementazioni fedeli. Costruiamo SciCoQA a partire da issue di GitHub e articoli sulla riproducibilità e, per scalare il nostro dataset, proponiamo un metodo di generazione di dati sintetici per costruire discrepanze carta-codice. Analizziamo nel dettaglio tali discrepanze e proponiamo tipologie e categorie per comprendere meglio le incongruenze che si verificano. In totale, il nostro dataset è composto da 611 discrepanze carta-codice (81 reali, 530 sintetiche), che abbracciano diverse discipline della scienza computazionale, tra cui IA, Fisica, Biologia Quantitativa e altre. La nostra valutazione di 21 LLM evidenzia la difficoltà di SciCoQA, in particolare per gli esempi che coinvolgono dettagli omessi nel paper, input di contesto lungo e dati estranei al corpus di pre-training dei modelli. Il modello con le migliori prestazioni nella nostra valutazione, GPT-5, riesce a rilevare solo il 45,7% delle discrepanze carta-codice del mondo reale.

English

We present SciCoQA, a dataset for detecting discrepancies between scientific publications and their codebases to ensure faithful implementations. We construct SciCoQA from GitHub issues and reproducibility papers, and to scale our dataset, we propose a synthetic data generation method for constructing paper-code discrepancies. We analyze the paper-code discrepancies in detail and propose discrepancy types and categories to better understand the occurring mismatches. In total, our dataset consists of 611 paper-code discrepancies (81 real, 530 synthetic), spanning diverse computational science disciplines, including AI, Physics, Quantitative Biology, and others. Our evaluation of 21 LLMs highlights the difficulty of SciCoQA, particularly for instances involving omitted paper details, long-context inputs, and data outside the models' pre-training corpus. The best performing model in our evaluation, GPT-5, can only detect 45.7\% of real-world paper-code discrepancies.

SciCoQA: Controllo di Qualità per l'Allineamento Codice--Articolo Scientifico

SciCoQA: Quality Assurance for Scientific Paper--Code Alignment

Abstract

Support