SciCoQA: Qualitätssicherung für die Ausrichtung von wissenschaftlichen Artikeln und Code
SciCoQA: Quality Assurance for Scientific Paper--Code Alignment
January 19, 2026
papers.authors: Tim Baumgärtner, Iryna Gurevych
cs.AI
papers.abstract
Wir stellen SciCoQA vor, einen Datensatz zur Erkennung von Diskrepanzen zwischen wissenschaftlichen Publikationen und ihren Codebasen, um treue Implementierungen sicherzustellen. Wir konstruieren SciCoQA aus GitHub-Issues und Reproduzierbarkeitsartikeln und schlagen zur Skalierung unseres Datensatzes eine Methode zur synthetischen Datengenerierung für die Erstellung von Papier-Code-Diskrepanzen vor. Wir analysieren die Papier-Code-Diskrepanzen im Detail und schlagen Diskrepanztypen und -kategorien vor, um die auftretenden Abweichungen besser zu verstehen. Insgesamt besteht unser Datensatz aus 611 Papier-Code-Diskrepanzen (81 echte, 530 synthetische), die verschiedene Disziplinen der computergestützten Wissenschaften abdecken, darunter KI, Physik, quantitative Biologie und andere. Unsere Auswertung von 21 LLMs unterstreicht die Schwierigkeit von SciCoQA, insbesondere bei Instanzen mit ausgelassenen Details im Artikel, langen Kontexteingaben und Daten außerhalb des Vor-Trainingskorpus der Modelle. Das in unserer Evaluation am besten abschneidende Modell, GPT-5, kann nur 45,7 % der realen Papier-Code-Diskrepanzen erkennen.
English
We present SciCoQA, a dataset for detecting discrepancies between scientific publications and their codebases to ensure faithful implementations. We construct SciCoQA from GitHub issues and reproducibility papers, and to scale our dataset, we propose a synthetic data generation method for constructing paper-code discrepancies. We analyze the paper-code discrepancies in detail and propose discrepancy types and categories to better understand the occurring mismatches. In total, our dataset consists of 611 paper-code discrepancies (81 real, 530 synthetic), spanning diverse computational science disciplines, including AI, Physics, Quantitative Biology, and others. Our evaluation of 21 LLMs highlights the difficulty of SciCoQA, particularly for instances involving omitted paper details, long-context inputs, and data outside the models' pre-training corpus. The best performing model in our evaluation, GPT-5, can only detect 45.7\% of real-world paper-code discrepancies.