ChatPaper.aiChatPaper

BoxingGym : Évaluation des progrès dans la conception expérimentale automatisée et la découverte de modèles

BoxingGym: Benchmarking Progress in Automated Experimental Design and Model Discovery

January 2, 2025
Auteurs: Kanishk Gandhi, Michael Y. Li, Lyle Goodyear, Louise Li, Aditi Bhaskar, Mohammed Zaman, Noah D. Goodman
cs.AI

Résumé

Comprendre le monde et l'expliquer avec des théories scientifiques est une aspiration centrale de la recherche en intelligence artificielle. Proposer des théories, concevoir des expériences pour les tester, puis les réviser en fonction des données sont fondamentaux pour la découverte scientifique. Malgré la promesse significative des agents scientifiques basés sur LLM, aucun banc d'essai ne teste systématiquement la capacité du LLM à proposer des modèles scientifiques, collecter des données expérimentales et les réviser à la lumière de nouvelles données. Nous introduisons BoxingGym, un banc d'essai avec 10 environnements pour évaluer systématiquement à la fois la conception expérimentale (par exemple, collecter des données pour tester une théorie scientifique) et la découverte de modèles (par exemple, proposer et réviser des théories scientifiques). Pour permettre une évaluation praticable et quantitative, nous implémentons chaque environnement sous la forme d'un modèle probabiliste génératif avec lequel un agent scientifique peut mener des expériences interactives. Ces modèles probabilistes sont issus de divers domaines scientifiques du monde réel, allant de la psychologie à l'écologie. Pour évaluer quantitativement la capacité d'un agent scientifique à collecter des données expérimentales informatives, nous calculons le gain d'information attendu (EIG), une quantité informationnelle mesurant dans quelle mesure une expérience réduit l'incertitude concernant les paramètres d'un modèle génératif. Une bonne théorie scientifique est une explication concise et prédictive. Par conséquent, pour évaluer quantitativement la découverte de modèles, nous demandons à un agent scientifique d'expliquer son modèle, puis évaluons si cette explication permet à un autre agent scientifique de faire des prédictions fiables sur cet environnement. En plus de cette évaluation basée sur l'explication, nous calculons des métriques d'évaluation de modèles standard telles que les erreurs de prédiction. Nous constatons que les LLM actuels, tels que GPT-4o, rencontrent des difficultés à la fois en conception expérimentale et en découverte de modèles. Nous constatons que le fait de compléter l'agent basé sur LLM avec un modèle statistique explicite n'améliore pas de manière fiable ces résultats.
English
Understanding the world and explaining it with scientific theories is a central aspiration of artificial intelligence research. Proposing theories, designing experiments to test them, and then revising them based on data are fundamental to scientific discovery. Despite the significant promise of LLM-based scientific agents, no benchmarks systematically test LLM's ability to propose scientific models, collect experimental data, and revise them in light of new data. We introduce BoxingGym, a benchmark with 10 environments for systematically evaluating both experimental design (e.g. collecting data to test a scientific theory) and model discovery (e.g. proposing and revising scientific theories). To enable tractable and quantitative evaluation, we implement each environment as a generative probabilistic model with which a scientific agent can run interactive experiments. These probabilistic models are drawn from various real-world scientific domains ranging from psychology to ecology. To quantitatively evaluate a scientific agent's ability to collect informative experimental data, we compute the expected information gain (EIG), an information-theoretic quantity which measures how much an experiment reduces uncertainty about the parameters of a generative model. A good scientific theory is a concise and predictive explanation. Therefore, to quantitatively evaluate model discovery, we ask a scientific agent to explain their model and then assess whether this explanation enables another scientific agent to make reliable predictions about this environment. In addition to this explanation-based evaluation, we compute standard model evaluation metrics such as prediction errors. We find that current LLMs, such as GPT-4o, struggle with both experimental design and model discovery. We find that augmenting the LLM-based agent with an explicit statistical model does not reliably improve these results.

Summary

AI-Generated Summary

PDF62January 6, 2025