SciCoQA: 과학 논문-코드 정렬을 위한 품질 보증
SciCoQA: Quality Assurance for Scientific Paper--Code Alignment
January 19, 2026
저자: Tim Baumgärtner, Iryna Gurevych
cs.AI
초록
우리는 과학 논문과 코드베이스 간의 불일치를 탐지하여 충실한 구현을 보장하기 위한 데이터셋인 SciCoQA를 제안합니다. SciCoQA는 GitHub 이슈와 재현성 논문을 바탕으로 구축하였으며, 데이터셋 규모 확장을 위해 논문-코드 불일치를 생성하는 합성 데이터 생성 방법을 제안합니다. 우리는 논문-코드 불일치를 상세히 분석하고 발생하는 불일치를 더 잘 이해하기 위해 불일치 유형과 범주를 제시합니다. 전체적으로 우리 데이터셋은 AI, 물리학, 정량생물학 등 다양한 계산 과학 분야에 걸친 611개의 논문-코드 불일치(실제 81개, 합성 530개)로 구성됩니다. 21개의 대규모 언어 모델에 대한 평가 결과는 SciCoQA의 어려움, 특히 논문 상세 내용 생략, 장문 컨텍스트 입력, 모델 사전 학습 코퍼스 외부 데이터가 포함된 사례에서의 어려움을 부각했습니다. 평가에서 가장 높은 성능을 보인 GPT-5 모델도 실제 논문-코드 불일치의 45.7%만 탐지할 수 있었습니다.
English
We present SciCoQA, a dataset for detecting discrepancies between scientific publications and their codebases to ensure faithful implementations. We construct SciCoQA from GitHub issues and reproducibility papers, and to scale our dataset, we propose a synthetic data generation method for constructing paper-code discrepancies. We analyze the paper-code discrepancies in detail and propose discrepancy types and categories to better understand the occurring mismatches. In total, our dataset consists of 611 paper-code discrepancies (81 real, 530 synthetic), spanning diverse computational science disciplines, including AI, Physics, Quantitative Biology, and others. Our evaluation of 21 LLMs highlights the difficulty of SciCoQA, particularly for instances involving omitted paper details, long-context inputs, and data outside the models' pre-training corpus. The best performing model in our evaluation, GPT-5, can only detect 45.7\% of real-world paper-code discrepancies.