SciCoQA: 科学論文とコードの整合性に対する品質保証
SciCoQA: Quality Assurance for Scientific Paper--Code Alignment
January 19, 2026
著者: Tim Baumgärtner, Iryna Gurevych
cs.AI
要旨
SciCoQAは、科学論文とそのコードベース間の不一致を検出し、実装の忠実性を確保するためのデータセットである。本データセットはGitHubのIssueと再現性論文から構築され、規模拡大のため論文とコードの不一致を生成する合成データ手法を提案する。論文とコードの不一致を詳細に分析し、発生するミスマッチを理解するための不一致タイプとカテゴリを定義した。データセットは合計611件(実データ81件、合成データ530件)の不一致事例からなり、AI、物理学、定量生物学など多様な計算科学分野に及ぶ。21種類の大規模言語モデルによる評価では、SciCoQAの難易度の高さが明らかとなり、特に論文詳細の省略、長文コンテキスト、事前学習コーパス外のデータを含む事例で課題が顕著であった。評価で最高性能を示したGPT-5ですら、実世界の論文とコードの不一致の45.7%しか検出できなかった。
English
We present SciCoQA, a dataset for detecting discrepancies between scientific publications and their codebases to ensure faithful implementations. We construct SciCoQA from GitHub issues and reproducibility papers, and to scale our dataset, we propose a synthetic data generation method for constructing paper-code discrepancies. We analyze the paper-code discrepancies in detail and propose discrepancy types and categories to better understand the occurring mismatches. In total, our dataset consists of 611 paper-code discrepancies (81 real, 530 synthetic), spanning diverse computational science disciplines, including AI, Physics, Quantitative Biology, and others. Our evaluation of 21 LLMs highlights the difficulty of SciCoQA, particularly for instances involving omitted paper details, long-context inputs, and data outside the models' pre-training corpus. The best performing model in our evaluation, GPT-5, can only detect 45.7\% of real-world paper-code discrepancies.