ChatPaper.aiChatPaper

SciCoQA : Assurance qualité pour l'alignement code--article scientifique

SciCoQA: Quality Assurance for Scientific Paper--Code Alignment

January 19, 2026
papers.authors: Tim Baumgärtner, Iryna Gurevych
cs.AI

papers.abstract

Nous présentons SciCoQA, un ensemble de données pour détecter les écarts entre les publications scientifiques et leurs bases de code afin de garantir des implémentations fidèles. Nous construisons SciCoQA à partir d'issues GitHub et d'articles sur la reproductibilité, et pour étendre notre jeu de données, nous proposons une méthode de génération de données synthétiques pour construire des incohérences papier-code. Nous analysons en détail ces incohérences et proposons une typologie et des catégories pour mieux comprendre les discordances observées. Au total, notre jeu de données comprend 611 incohérences papier-code (81 réelles, 530 synthétiques), couvrant diverses disciplines des sciences computationnelles, notamment l'IA, la physique, la biologie quantitative et d'autres. Notre évaluation de 21 modèles de langage souligne la difficulté de SciCoQA, particulièrement pour les instances impliquant des omissions de détails dans les articles, des entrées à contexte long et des données extérieures au corpus de pré-entraînement des modèles. Le meilleur modèle de notre évaluation, GPT-5, ne détecte que 45,7 % des incohérences papier-code du monde réel.
English
We present SciCoQA, a dataset for detecting discrepancies between scientific publications and their codebases to ensure faithful implementations. We construct SciCoQA from GitHub issues and reproducibility papers, and to scale our dataset, we propose a synthetic data generation method for constructing paper-code discrepancies. We analyze the paper-code discrepancies in detail and propose discrepancy types and categories to better understand the occurring mismatches. In total, our dataset consists of 611 paper-code discrepancies (81 real, 530 synthetic), spanning diverse computational science disciplines, including AI, Physics, Quantitative Biology, and others. Our evaluation of 21 LLMs highlights the difficulty of SciCoQA, particularly for instances involving omitted paper details, long-context inputs, and data outside the models' pre-training corpus. The best performing model in our evaluation, GPT-5, can only detect 45.7\% of real-world paper-code discrepancies.
PDF11January 22, 2026