SciCoQA: Garantía de Calidad para la Alineación Código-Artículo Científico
SciCoQA: Quality Assurance for Scientific Paper--Code Alignment
January 19, 2026
Autores: Tim Baumgärtner, Iryna Gurevych
cs.AI
Resumen
Presentamos SciCoQA, un conjunto de datos para detectar discrepancias entre publicaciones científicas y sus bases de código, con el fin de garantizar implementaciones fieles. Construimos SciCoQA a partir de issues de GitHub y artículos de reproducibilidad, y para escalar nuestro conjunto de datos, proponemos un método de generación de datos sintéticos para construir discrepancias artículo-código. Analizamos en detalle las discrepancias artículo-código y proponemos tipos y categorías de discrepancias para comprender mejor los desajustes que se producen. En total, nuestro conjunto de datos consta de 611 discrepancias artículo-código (81 reales, 530 sintéticas), que abarcan diversas disciplinas de la ciencia computacional, como la IA, la Física, la Biología Cuantitativa y otras. Nuestra evaluación de 21 LLM subraya la dificultad de SciCoQA, particularmente para los casos que implican detalles omitidos en el artículo, entradas de contexto largo y datos ajenos al corpus de preentrenamiento de los modelos. El modelo con mejor rendimiento en nuestra evaluación, GPT-5, solo puede detectar el 45.7% de las discrepancias artículo-código del mundo real.
English
We present SciCoQA, a dataset for detecting discrepancies between scientific publications and their codebases to ensure faithful implementations. We construct SciCoQA from GitHub issues and reproducibility papers, and to scale our dataset, we propose a synthetic data generation method for constructing paper-code discrepancies. We analyze the paper-code discrepancies in detail and propose discrepancy types and categories to better understand the occurring mismatches. In total, our dataset consists of 611 paper-code discrepancies (81 real, 530 synthetic), spanning diverse computational science disciplines, including AI, Physics, Quantitative Biology, and others. Our evaluation of 21 LLMs highlights the difficulty of SciCoQA, particularly for instances involving omitted paper details, long-context inputs, and data outside the models' pre-training corpus. The best performing model in our evaluation, GPT-5, can only detect 45.7\% of real-world paper-code discrepancies.