PhysGym: Valutazione dei Modelli Linguistici di Grande Dimensione nella Scoperta Interattiva della Fisica con Prior Controllati
PhysGym: Benchmarking LLMs in Interactive Physics Discovery with Controlled Priors
July 21, 2025
Autori: Yimeng Chen, Piotr Piȩkos, Mateusz Ostaszewski, Firas Laakom, Jürgen Schmidhuber
cs.AI
Abstract
Valutare le capacità di scoperta scientifica degli agenti basati su modelli linguistici di grandi dimensioni, in particolare come affrontano la complessità ambientale variabile e utilizzano la conoscenza pregressa, richiede benchmark specializzati attualmente assenti nel panorama. Per colmare questa lacuna, introduciamo PhysGym, una nuova suite di benchmark e piattaforma di simulazione progettata per valutare rigorosamente il ragionamento scientifico basato su LLM in ambienti di fisica interattivi. Il contributo principale di PhysGym risiede nel suo sofisticato controllo sul livello di conoscenza pregressa fornita all'agente. Ciò consente ai ricercatori di analizzare le prestazioni dell'agente lungo assi che includono la complessità del problema e i livelli di conoscenza pregressa. Il benchmark comprende una suite di simulazioni interattive, in cui gli agenti devono esplorare attivamente gli ambienti, raccogliere dati in modo sequenziale sotto vincoli e formulare ipotesi sulle leggi fisiche sottostanti. PhysGym fornisce protocolli di valutazione standardizzati e metriche per valutare l'accuratezza delle ipotesi e la fedeltà del modello. Dimostriamo l'utilità del benchmark presentando i risultati di LLM di base, mostrando la sua capacità di differenziare le capacità in base ai prior variabili e alla complessità del compito.
English
Evaluating the scientific discovery capabilities of large language model
based agents, particularly how they cope with varying environmental complexity
and utilize prior knowledge, requires specialized benchmarks currently lacking
in the landscape. To address this gap, we introduce PhysGym, a novel benchmark
suite and simulation platform for rigorously assessing LLM-based scientific
reasoning in interactive physics environments. PhysGym's primary contribution
lies in its sophisticated control over the level of prior knowledge provided to
the agent. This allows researchers to dissect agent performance along axes
including the complexity of the problem and the prior knowledge levels. The
benchmark comprises a suite of interactive simulations, where agents must
actively probe environments, gather data sequentially under constraints and
formulate hypotheses about underlying physical laws. PhysGym provides
standardized evaluation protocols and metrics for assessing hypothesis accuracy
and model fidelity. We demonstrate the benchmark's utility by presenting
results from baseline LLMs, showcasing its ability to differentiate
capabilities based on varying priors and task complexity.