BoxingGym: Bewertung des Fortschritts bei automatisiertem experimentellem Design und Modellentdeckung
BoxingGym: Benchmarking Progress in Automated Experimental Design and Model Discovery
January 2, 2025
Autoren: Kanishk Gandhi, Michael Y. Li, Lyle Goodyear, Louise Li, Aditi Bhaskar, Mohammed Zaman, Noah D. Goodman
cs.AI
Zusammenfassung
Das Verständnis der Welt und ihre Erklärung mit wissenschaftlichen Theorien ist ein zentrales Anliegen der Forschung im Bereich der künstlichen Intelligenz. Das Vorschlagen von Theorien, das Entwerfen von Experimenten zur Überprüfung von ihnen und dann das Überarbeiten basierend auf Daten sind grundlegend für wissenschaftliche Entdeckungen. Trotz des bedeutenden Potenzials von auf LLM basierenden wissenschaftlichen Agenten gibt es keine Benchmarks, die systematisch die Fähigkeit von LLM testen, wissenschaftliche Modelle vorzuschlagen, experimentelle Daten zu sammeln und sie im Licht neuer Daten zu überarbeiten. Wir stellen BoxingGym vor, einen Benchmark mit 10 Umgebungen zur systematischen Bewertung sowohl des experimentellen Designs (z. B. Datensammlung zur Überprüfung einer wissenschaftlichen Theorie) als auch der Modellentdeckung (z. B. Vorschlagen und Überarbeiten von wissenschaftlichen Theorien). Um eine handhabbare und quantitative Bewertung zu ermöglichen, implementieren wir jede Umgebung als generatives probabilistisches Modell, mit dem ein wissenschaftlicher Agent interaktive Experimente durchführen kann. Diese probabilistischen Modelle stammen aus verschiedenen realen wissenschaftlichen Bereichen, von Psychologie bis Ökologie. Um die Fähigkeit eines wissenschaftlichen Agenten zur Sammlung informativer experimenteller Daten quantitativ zu bewerten, berechnen wir den erwarteten Informationsgewinn (EIG), eine informations-theoretische Größe, die misst, wie sehr ein Experiment die Unsicherheit über die Parameter eines generativen Modells reduziert. Eine gute wissenschaftliche Theorie ist eine prägnante und vorhersagende Erklärung. Daher bitten wir zur quantitativen Bewertung der Modellentdeckung einen wissenschaftlichen Agenten, ihr Modell zu erklären, und bewerten dann, ob diese Erklärung einem anderen wissenschaftlichen Agenten ermöglicht, zuverlässige Vorhersagen über diese Umgebung zu treffen. Neben dieser erklärungsbasierten Bewertung berechnen wir auch standardmäßige Modellbewertungsmetriken wie Vorhersagefehler. Wir stellen fest, dass aktuelle LLMs, wie z. B. GPT-4o, sowohl mit dem experimentellen Design als auch mit der Modellentdeckung zu kämpfen haben. Wir stellen fest, dass die Ergänzung des auf LLM basierenden Agenten mit einem expliziten statistischen Modell diese Ergebnisse nicht zuverlässig verbessert.
English
Understanding the world and explaining it with scientific theories is a
central aspiration of artificial intelligence research. Proposing theories,
designing experiments to test them, and then revising them based on data are
fundamental to scientific discovery. Despite the significant promise of
LLM-based scientific agents, no benchmarks systematically test LLM's ability to
propose scientific models, collect experimental data, and revise them in light
of new data. We introduce BoxingGym, a benchmark with 10 environments for
systematically evaluating both experimental design (e.g. collecting data to
test a scientific theory) and model discovery (e.g. proposing and revising
scientific theories). To enable tractable and quantitative evaluation, we
implement each environment as a generative probabilistic model with which a
scientific agent can run interactive experiments. These probabilistic models
are drawn from various real-world scientific domains ranging from psychology to
ecology. To quantitatively evaluate a scientific agent's ability to collect
informative experimental data, we compute the expected information gain (EIG),
an information-theoretic quantity which measures how much an experiment reduces
uncertainty about the parameters of a generative model. A good scientific
theory is a concise and predictive explanation. Therefore, to quantitatively
evaluate model discovery, we ask a scientific agent to explain their model and
then assess whether this explanation enables another scientific agent to make
reliable predictions about this environment. In addition to this
explanation-based evaluation, we compute standard model evaluation metrics such
as prediction errors. We find that current LLMs, such as GPT-4o, struggle with
both experimental design and model discovery. We find that augmenting the
LLM-based agent with an explicit statistical model does not reliably improve
these results.Summary
AI-Generated Summary