InfiniteScienceGym: Un Punto de Referencia Ilimitado y Generado Procedimentalmente para el Análisis Científico

Resumen

Los grandes modelos de lenguaje están emergiendo como asistentes científicos, pero evaluar su capacidad para razonar a partir de datos empíricos sigue siendo un desafío. Los puntos de referencia derivados de estudios publicados y anotaciones humanas heredan el sesgo de publicación, el sesgo del conocimiento conocido, el ruido en las etiquetas y requisitos de almacenamiento sustanciales. Presentamos InfiniteScienceGym, un punto de referencia generado proceduralmente de repositorios científicos emparejado con una tarea verificable de pregunta-respuesta. A partir de una semilla, el simulador genera determinísticamente un repositorio autocontenido con una estructura de directorios, archivos y datos tabulares realistas, y un generador de preguntas privilegiado produce tanto preguntas respondibles como inrespondibles con una verdad fundamental exacta. Esto hace posible evaluar el razonamiento basado en evidencia, la abstención y el análisis mediado por herramientas en un entorno controlado sin distribuir un gran corpus estático. InfiniteScienceGym complementa los puntos de referencia científicos reales al abordar puntos ciegos y modos de fallo que son difíciles de evaluar utilizando únicamente conjuntos de datos publicados. Al evaluar tanto modelos propietarios como de peso abierto, encontramos que ninguno alcanza más del 45% de precisión general, que el reconocimiento de preguntas inrespondibles sigue siendo una debilidad importante, y que los modelos más fuertes tienden a utilizar herramientas de manera más efectiva en lugar de simplemente consumir más tokens.

English

Large language models are emerging as scientific assistants, but evaluating their ability to reason from empirical data remains challenging. Benchmarks derived from published studies and human annotations inherit publication bias, known-knowledge bias, label noise, and substantial storage requirements. We present InfiniteScienceGym, a procedurally generated benchmark of scientific repositories paired with a verifiable question-answering task. From a seed, the simulator deterministically generates a self-contained repository with realistic directory structure, files, and tabular data, and a privileged QA generator produces both answerable and unanswerable questions with exact ground truth. This makes it possible to evaluate evidence-grounded reasoning, abstention, and tool-mediated analysis in a controlled setting without distributing a large static corpus. InfiniteScienceGym complements real scientific benchmarks by targeting blind spots and failure modes that are hard to evaluate using published datasets alone. Evaluating both proprietary and open-weight models, we find that none achieve more than 45% accuracy overall, that recognizing unanswerable questions remains a major weakness, and that stronger models tend to use tools more effectively rather than simply consuming more tokens.

InfiniteScienceGym: Un Punto de Referencia Ilimitado y Generado Procedimentalmente para el Análisis Científico

InfiniteScienceGym: An Unbounded, Procedurally-Generated Benchmark for Scientific Analysis

Resumen

Support