BoxingGym : Évaluation des progrès dans la conception expérimentale automatisée et la découverte de modèles
BoxingGym: Benchmarking Progress in Automated Experimental Design and Model Discovery
January 2, 2025
Auteurs: Kanishk Gandhi, Michael Y. Li, Lyle Goodyear, Louise Li, Aditi Bhaskar, Mohammed Zaman, Noah D. Goodman
cs.AI
Résumé
Comprendre le monde et l'expliquer avec des théories scientifiques est une aspiration centrale de la recherche en intelligence artificielle. Proposer des théories, concevoir des expériences pour les tester, puis les réviser en fonction des données sont fondamentaux pour la découverte scientifique. Malgré la promesse significative des agents scientifiques basés sur LLM, aucun banc d'essai ne teste systématiquement la capacité du LLM à proposer des modèles scientifiques, collecter des données expérimentales et les réviser à la lumière de nouvelles données. Nous introduisons BoxingGym, un banc d'essai avec 10 environnements pour évaluer systématiquement à la fois la conception expérimentale (par exemple, collecter des données pour tester une théorie scientifique) et la découverte de modèles (par exemple, proposer et réviser des théories scientifiques). Pour permettre une évaluation praticable et quantitative, nous implémentons chaque environnement sous la forme d'un modèle probabiliste génératif avec lequel un agent scientifique peut mener des expériences interactives. Ces modèles probabilistes sont issus de divers domaines scientifiques du monde réel, allant de la psychologie à l'écologie. Pour évaluer quantitativement la capacité d'un agent scientifique à collecter des données expérimentales informatives, nous calculons le gain d'information attendu (EIG), une quantité informationnelle mesurant dans quelle mesure une expérience réduit l'incertitude concernant les paramètres d'un modèle génératif. Une bonne théorie scientifique est une explication concise et prédictive. Par conséquent, pour évaluer quantitativement la découverte de modèles, nous demandons à un agent scientifique d'expliquer son modèle, puis évaluons si cette explication permet à un autre agent scientifique de faire des prédictions fiables sur cet environnement. En plus de cette évaluation basée sur l'explication, nous calculons des métriques d'évaluation de modèles standard telles que les erreurs de prédiction. Nous constatons que les LLM actuels, tels que GPT-4o, rencontrent des difficultés à la fois en conception expérimentale et en découverte de modèles. Nous constatons que le fait de compléter l'agent basé sur LLM avec un modèle statistique explicite n'améliore pas de manière fiable ces résultats.
English
Understanding the world and explaining it with scientific theories is a
central aspiration of artificial intelligence research. Proposing theories,
designing experiments to test them, and then revising them based on data are
fundamental to scientific discovery. Despite the significant promise of
LLM-based scientific agents, no benchmarks systematically test LLM's ability to
propose scientific models, collect experimental data, and revise them in light
of new data. We introduce BoxingGym, a benchmark with 10 environments for
systematically evaluating both experimental design (e.g. collecting data to
test a scientific theory) and model discovery (e.g. proposing and revising
scientific theories). To enable tractable and quantitative evaluation, we
implement each environment as a generative probabilistic model with which a
scientific agent can run interactive experiments. These probabilistic models
are drawn from various real-world scientific domains ranging from psychology to
ecology. To quantitatively evaluate a scientific agent's ability to collect
informative experimental data, we compute the expected information gain (EIG),
an information-theoretic quantity which measures how much an experiment reduces
uncertainty about the parameters of a generative model. A good scientific
theory is a concise and predictive explanation. Therefore, to quantitatively
evaluate model discovery, we ask a scientific agent to explain their model and
then assess whether this explanation enables another scientific agent to make
reliable predictions about this environment. In addition to this
explanation-based evaluation, we compute standard model evaluation metrics such
as prediction errors. We find that current LLMs, such as GPT-4o, struggle with
both experimental design and model discovery. We find that augmenting the
LLM-based agent with an explicit statistical model does not reliably improve
these results.Summary
AI-Generated Summary