InfiniteScienceGym: Een Onbegrensde, Procedureel gegenereerde Benchmark voor Wetenschappelijke Analyse

Samenvatting

Grote taalmodellen doen hun intrede als wetenschappelijke assistenten, maar het evalueren van hun vermogen om te redeneren op basis van empirische gegevens blijft een uitdaging. Benchmarks die zijn afgeleid van gepubliceerde studies en menselijke annotaties erven publicatiebias, bekend-kennis-bias, labelruis en aanzienlijke opslagvereisten over. Wij presenteren InfiniteScienceGym, een procedureel gegenereerde benchmark van wetenschappelijke repositories gekoppeld aan een verifieerbare vraag-antwoordtaak. Vanuit een startpunt genereert de simulator deterministisch een zelfstandige repository met een realistische mappenstructuur, bestanden en tabelgegevens, en een geprivilegieerde QA-generator produceert zowel beantwoordbare als onbeantwoordbare vragen met exacte grondtruth. Dit maakt het mogelijk om op bewijzen gebaseerd redeneren, abstinentie en tool-gemedieerde analyse te evalueren in een gecontroleerde omgeving zonder een grote statische corpus te distribueren. InfiniteScienceGym complementeert echte wetenschappelijke benchmarks door zich te richten op blinde vlekken en faalmodi die moeilijk te evalueren zijn met alleen gepubliceerde datasets. Door zowel propriëtaire als open-weight modellen te evalueren, constateren we dat geen enkel model meer dan 45% nauwkeurigheid behaalt overall, dat het herkennen van onbeantwoordbare vragen een grote zwakte blijft, en dat sterkere modellen de neiging hebben tools effectiever te gebruiken in plaats van simpelweg meer tokens te verbruiken.

English

Large language models are emerging as scientific assistants, but evaluating their ability to reason from empirical data remains challenging. Benchmarks derived from published studies and human annotations inherit publication bias, known-knowledge bias, label noise, and substantial storage requirements. We present InfiniteScienceGym, a procedurally generated benchmark of scientific repositories paired with a verifiable question-answering task. From a seed, the simulator deterministically generates a self-contained repository with realistic directory structure, files, and tabular data, and a privileged QA generator produces both answerable and unanswerable questions with exact ground truth. This makes it possible to evaluate evidence-grounded reasoning, abstention, and tool-mediated analysis in a controlled setting without distributing a large static corpus. InfiniteScienceGym complements real scientific benchmarks by targeting blind spots and failure modes that are hard to evaluate using published datasets alone. Evaluating both proprietary and open-weight models, we find that none achieve more than 45% accuracy overall, that recognizing unanswerable questions remains a major weakness, and that stronger models tend to use tools more effectively rather than simply consuming more tokens.

InfiniteScienceGym: Een Onbegrensde, Procedureel gegenereerde Benchmark voor Wetenschappelijke Analyse

InfiniteScienceGym: An Unbounded, Procedurally-Generated Benchmark for Scientific Analysis

Samenvatting

Support