PhysGym : Évaluation des LLM dans la découverte interactive de la physique avec des a priori contrôlés

papers.abstract

Évaluer les capacités de découverte scientifique des agents basés sur des modèles de langage de grande taille, en particulier leur manière de gérer la complexité environnementale variable et d'utiliser les connaissances préalables, nécessite des benchmarks spécialisés actuellement absents dans le paysage. Pour combler cette lacune, nous introduisons PhysGym, une nouvelle suite de benchmarks et une plateforme de simulation conçues pour évaluer rigoureusement le raisonnement scientifique basé sur les LLM dans des environnements physiques interactifs. La contribution principale de PhysGym réside dans son contrôle sophistiqué du niveau de connaissances préalables fournies à l'agent. Cela permet aux chercheurs d'analyser la performance de l'agent selon des axes incluant la complexité du problème et les niveaux de connaissances préalables. Le benchmark comprend une suite de simulations interactives, où les agents doivent explorer activement les environnements, collecter des données de manière séquentielle sous contraintes et formuler des hypothèses sur les lois physiques sous-jacentes. PhysGym fournit des protocoles d'évaluation standardisés et des métriques pour évaluer la précision des hypothèses et la fidélité du modèle. Nous démontrons l'utilité du benchmark en présentant les résultats de LLM de référence, mettant en évidence sa capacité à différencier les capacités en fonction des connaissances préalables variables et de la complexité des tâches.

English

Evaluating the scientific discovery capabilities of large language model based agents, particularly how they cope with varying environmental complexity and utilize prior knowledge, requires specialized benchmarks currently lacking in the landscape. To address this gap, we introduce PhysGym, a novel benchmark suite and simulation platform for rigorously assessing LLM-based scientific reasoning in interactive physics environments. PhysGym's primary contribution lies in its sophisticated control over the level of prior knowledge provided to the agent. This allows researchers to dissect agent performance along axes including the complexity of the problem and the prior knowledge levels. The benchmark comprises a suite of interactive simulations, where agents must actively probe environments, gather data sequentially under constraints and formulate hypotheses about underlying physical laws. PhysGym provides standardized evaluation protocols and metrics for assessing hypothesis accuracy and model fidelity. We demonstrate the benchmark's utility by presenting results from baseline LLMs, showcasing its ability to differentiate capabilities based on varying priors and task complexity.

PhysGym : Évaluation des LLM dans la découverte interactive de la physique avec des a priori contrôlés

PhysGym: Benchmarking LLMs in Interactive Physics Discovery with Controlled Priors

papers.abstract

Support