InfiniteScienceGym: 과학적 분석을 위한 무제한 절차적 생성 벤치마크
InfiniteScienceGym: An Unbounded, Procedurally-Generated Benchmark for Scientific Analysis
April 14, 2026
저자: Oliver Bentham, Vivek Srikumar
cs.AI
초록
대규모 언어 모델이 과학 연구 보조 도구로 부상하고 있지만, 경험적 데이터를 기반으로 추론하는 능력을 평가하는 것은 여전히 어려운 과제입니다. 출판된 연구와 인간의 주석에서 파생된 벤치마크는 출판 편향, 알려진 지식 편향, 레이블 노이즈 및 상당한 저장 공간 요구 사항을 그대로 물려받습니다. 본 논문에서는 절차적으로 생성된 과학 리포지토리 벤치마크와 검증 가능한 질의응답 과제를 결합한 InfiniteScienceGym을 제시합니다. 시드(seed)를 기반으로 시뮬레이터는 현실적인 디렉토리 구조, 파일, 표 형식의 데이터를 갖춘 독립적인 리포지토리를 결정론적으로 생성하며, 특권을 가진 QA 생성기는 정확한 정답(ground truth)을 갖는 답변 가능 및 답변 불가능한 질문을 모두 생성합니다. 이를 통해 대규모 정적 코퍼스를 배포하지 않고도 통제된 환경에서 증거 기반 추론, 응답 회피, 도구 매개 분석을 평가할 수 있습니다. InfiniteScienceGym은 출판된 데이터셋만으로 평가하기 어려운 블라인드 스팟과 실패 모드를 대상으로 삼아 실제 과학 벤치마크를 보완합니다. 독점 모델과 오픈 웨이트 모델을 모두 평가한 결과, 전체 정확도가 45%를 넘는 모델은 없었으며, 답변 불가능한 질문을 인식하는 것은 여전히 주요 약점으로 드러났습니다. 또한 더 강력한 모델일수록 단순히 더 많은 토큰을 소비하기보다 도구를 더 효과적으로 사용하는 경향이 있었습니다.
English
Large language models are emerging as scientific assistants, but evaluating their ability to reason from empirical data remains challenging. Benchmarks derived from published studies and human annotations inherit publication bias, known-knowledge bias, label noise, and substantial storage requirements. We present InfiniteScienceGym, a procedurally generated benchmark of scientific repositories paired with a verifiable question-answering task. From a seed, the simulator deterministically generates a self-contained repository with realistic directory structure, files, and tabular data, and a privileged QA generator produces both answerable and unanswerable questions with exact ground truth. This makes it possible to evaluate evidence-grounded reasoning, abstention, and tool-mediated analysis in a controlled setting without distributing a large static corpus. InfiniteScienceGym complements real scientific benchmarks by targeting blind spots and failure modes that are hard to evaluate using published datasets alone. Evaluating both proprietary and open-weight models, we find that none achieve more than 45% accuracy overall, that recognizing unanswerable questions remains a major weakness, and that stronger models tend to use tools more effectively rather than simply consuming more tokens.