PhysGym : Évaluation des LLM dans la découverte interactive de la physique avec des a priori contrôlés
PhysGym: Benchmarking LLMs in Interactive Physics Discovery with Controlled Priors
July 21, 2025
papers.authors: Yimeng Chen, Piotr Piȩkos, Mateusz Ostaszewski, Firas Laakom, Jürgen Schmidhuber
cs.AI
papers.abstract
Évaluer les capacités de découverte scientifique des agents basés sur des modèles de langage de grande taille, en particulier leur manière de gérer la complexité environnementale variable et d'utiliser les connaissances préalables, nécessite des benchmarks spécialisés actuellement absents dans le paysage. Pour combler cette lacune, nous introduisons PhysGym, une nouvelle suite de benchmarks et une plateforme de simulation conçues pour évaluer rigoureusement le raisonnement scientifique basé sur les LLM dans des environnements physiques interactifs. La contribution principale de PhysGym réside dans son contrôle sophistiqué du niveau de connaissances préalables fournies à l'agent. Cela permet aux chercheurs d'analyser la performance de l'agent selon des axes incluant la complexité du problème et les niveaux de connaissances préalables. Le benchmark comprend une suite de simulations interactives, où les agents doivent explorer activement les environnements, collecter des données de manière séquentielle sous contraintes et formuler des hypothèses sur les lois physiques sous-jacentes. PhysGym fournit des protocoles d'évaluation standardisés et des métriques pour évaluer la précision des hypothèses et la fidélité du modèle. Nous démontrons l'utilité du benchmark en présentant les résultats de LLM de référence, mettant en évidence sa capacité à différencier les capacités en fonction des connaissances préalables variables et de la complexité des tâches.
English
Evaluating the scientific discovery capabilities of large language model
based agents, particularly how they cope with varying environmental complexity
and utilize prior knowledge, requires specialized benchmarks currently lacking
in the landscape. To address this gap, we introduce PhysGym, a novel benchmark
suite and simulation platform for rigorously assessing LLM-based scientific
reasoning in interactive physics environments. PhysGym's primary contribution
lies in its sophisticated control over the level of prior knowledge provided to
the agent. This allows researchers to dissect agent performance along axes
including the complexity of the problem and the prior knowledge levels. The
benchmark comprises a suite of interactive simulations, where agents must
actively probe environments, gather data sequentially under constraints and
formulate hypotheses about underlying physical laws. PhysGym provides
standardized evaluation protocols and metrics for assessing hypothesis accuracy
and model fidelity. We demonstrate the benchmark's utility by presenting
results from baseline LLMs, showcasing its ability to differentiate
capabilities based on varying priors and task complexity.