SciCoQA: Kwaliteitsborging voor de Afstemming tussen Wetenschappelijke Artikelen en Code

Samenvatting

Wij presenteren SciCoQA, een dataset voor het detecteren van discrepanties tussen wetenschappelijke publicaties en hun codebases om getrouwe implementaties te waarborgen. We construeren SciCoQA op basis van GitHub-issues en reproduceerbaarheidspapers, en om onze dataset op te schalen, stellen we een methode voor synthetische datageneratie voor om paper-code-discrepanties te construeren. We analyseren de paper-code-discrepanties in detail en stellen discrepantietypen en -categorieën voor om de optredende mismatches beter te begrijpen. In totaal bestaat onze dataset uit 611 paper-code-discrepanties (81 reële, 530 synthetische), die diverse computationele wetenschapsdisciplines omvatten, waaronder AI, Natuurkunde, Kwantitatieve Biologie en andere. Onze evaluatie van 21 LLM's benadrukt de moeilijkheidsgraad van SciCoQA, met name voor instanties die ontbrekende paperdetails, lange-contextinvoer en gegevens buiten de pre-trainingscorpus van de modellen omvatten. Het best presterende model in onze evaluatie, GPT-5, kan slechts 45,7% van de paper-code-discrepanties uit de praktijk detecteren.

English

We present SciCoQA, a dataset for detecting discrepancies between scientific publications and their codebases to ensure faithful implementations. We construct SciCoQA from GitHub issues and reproducibility papers, and to scale our dataset, we propose a synthetic data generation method for constructing paper-code discrepancies. We analyze the paper-code discrepancies in detail and propose discrepancy types and categories to better understand the occurring mismatches. In total, our dataset consists of 611 paper-code discrepancies (81 real, 530 synthetic), spanning diverse computational science disciplines, including AI, Physics, Quantitative Biology, and others. Our evaluation of 21 LLMs highlights the difficulty of SciCoQA, particularly for instances involving omitted paper details, long-context inputs, and data outside the models' pre-training corpus. The best performing model in our evaluation, GPT-5, can only detect 45.7\% of real-world paper-code discrepancies.

SciCoQA: Kwaliteitsborging voor de Afstemming tussen Wetenschappelijke Artikelen en Code

SciCoQA: Quality Assurance for Scientific Paper--Code Alignment

Samenvatting

Support