InfiniteScienceGym: Um Benchmark Ilimitado e Gerado Proceduralmente para Análise Científica

Resumo

Os grandes modelos de linguagem estão surgindo como assistentes científicos, mas avaliar sua capacidade de raciocinar a partir de dados empíricos continua sendo um desafio. Os benchmarks derivados de estudos publicados e anotações humanas herdam viés de publicação, viés de conhecimento prévio, ruído de rótulo e requisitos substanciais de armazenamento. Apresentamos o InfiniteScienceGym, um benchmark gerado proceduralmente de repositórios científicos emparelhado com uma tarefa verificável de perguntas e respostas. A partir de uma semente, o simulador gera deterministicamente um repositório autônomo com estrutura de diretórios, arquivos e dados tabulares realistas, e um gerador privilegiado de QA produz tanto questões respondíveis quanto inrespondíveis com verdade fundamental exata. Isso possibilita avaliar o raciocínio baseado em evidências, a abstenção e a análise mediada por ferramentas em um ambiente controlado, sem distribuir um grande corpus estático. O InfiniteScienceGym complementa os benchmarks científicos reais ao direcionar pontos cegos e modos de falha que são difíceis de avaliar usando apenas conjuntos de dados publicados. Avaliando tanto modelos proprietários quanto de pesos abertos, descobrimos que nenhum alcança mais de 45% de precisão geral, que o reconhecimento de questões inrespondíveis continua sendo uma grande fraqueza e que modelos mais fortes tendem a usar ferramentas de forma mais eficaz em vez de simplesmente consumir mais tokens.

English

Large language models are emerging as scientific assistants, but evaluating their ability to reason from empirical data remains challenging. Benchmarks derived from published studies and human annotations inherit publication bias, known-knowledge bias, label noise, and substantial storage requirements. We present InfiniteScienceGym, a procedurally generated benchmark of scientific repositories paired with a verifiable question-answering task. From a seed, the simulator deterministically generates a self-contained repository with realistic directory structure, files, and tabular data, and a privileged QA generator produces both answerable and unanswerable questions with exact ground truth. This makes it possible to evaluate evidence-grounded reasoning, abstention, and tool-mediated analysis in a controlled setting without distributing a large static corpus. InfiniteScienceGym complements real scientific benchmarks by targeting blind spots and failure modes that are hard to evaluate using published datasets alone. Evaluating both proprietary and open-weight models, we find that none achieve more than 45% accuracy overall, that recognizing unanswerable questions remains a major weakness, and that stronger models tend to use tools more effectively rather than simply consuming more tokens.

InfiniteScienceGym: Um Benchmark Ilimitado e Gerado Proceduralmente para Análise Científica

InfiniteScienceGym: An Unbounded, Procedurally-Generated Benchmark for Scientific Analysis

Resumo

Support