ChatPaper.aiChatPaper

PhysGym: Valutazione dei Modelli Linguistici di Grande Dimensione nella Scoperta Interattiva della Fisica con Prior Controllati

PhysGym: Benchmarking LLMs in Interactive Physics Discovery with Controlled Priors

July 21, 2025
Autori: Yimeng Chen, Piotr Piȩkos, Mateusz Ostaszewski, Firas Laakom, Jürgen Schmidhuber
cs.AI

Abstract

Valutare le capacità di scoperta scientifica degli agenti basati su modelli linguistici di grandi dimensioni, in particolare come affrontano la complessità ambientale variabile e utilizzano la conoscenza pregressa, richiede benchmark specializzati attualmente assenti nel panorama. Per colmare questa lacuna, introduciamo PhysGym, una nuova suite di benchmark e piattaforma di simulazione progettata per valutare rigorosamente il ragionamento scientifico basato su LLM in ambienti di fisica interattivi. Il contributo principale di PhysGym risiede nel suo sofisticato controllo sul livello di conoscenza pregressa fornita all'agente. Ciò consente ai ricercatori di analizzare le prestazioni dell'agente lungo assi che includono la complessità del problema e i livelli di conoscenza pregressa. Il benchmark comprende una suite di simulazioni interattive, in cui gli agenti devono esplorare attivamente gli ambienti, raccogliere dati in modo sequenziale sotto vincoli e formulare ipotesi sulle leggi fisiche sottostanti. PhysGym fornisce protocolli di valutazione standardizzati e metriche per valutare l'accuratezza delle ipotesi e la fedeltà del modello. Dimostriamo l'utilità del benchmark presentando i risultati di LLM di base, mostrando la sua capacità di differenziare le capacità in base ai prior variabili e alla complessità del compito.
English
Evaluating the scientific discovery capabilities of large language model based agents, particularly how they cope with varying environmental complexity and utilize prior knowledge, requires specialized benchmarks currently lacking in the landscape. To address this gap, we introduce PhysGym, a novel benchmark suite and simulation platform for rigorously assessing LLM-based scientific reasoning in interactive physics environments. PhysGym's primary contribution lies in its sophisticated control over the level of prior knowledge provided to the agent. This allows researchers to dissect agent performance along axes including the complexity of the problem and the prior knowledge levels. The benchmark comprises a suite of interactive simulations, where agents must actively probe environments, gather data sequentially under constraints and formulate hypotheses about underlying physical laws. PhysGym provides standardized evaluation protocols and metrics for assessing hypothesis accuracy and model fidelity. We demonstrate the benchmark's utility by presenting results from baseline LLMs, showcasing its ability to differentiate capabilities based on varying priors and task complexity.
PDF42July 22, 2025