ChatPaper.aiChatPaper

PhysGym: 제어된 사전 지식을 활용한 상호작용형 물리학 발견에서의 대형 언어 모델 벤치마킹

PhysGym: Benchmarking LLMs in Interactive Physics Discovery with Controlled Priors

July 21, 2025
저자: Yimeng Chen, Piotr Piȩkos, Mateusz Ostaszewski, Firas Laakom, Jürgen Schmidhuber
cs.AI

초록

대규모 언어 모델 기반 에이전트의 과학적 발견 능력, 특히 다양한 환경 복잡성에 대처하고 사전 지식을 활용하는 방식을 평가하기 위해서는 현재 부족한 전용 벤치마크가 필요합니다. 이러한 격차를 해결하기 위해, 우리는 상호작용 물리 환경에서 LLM 기반 과학적 추론을 엄격하게 평가하기 위한 새로운 벤치마크 제품군 및 시뮬레이션 플랫폼인 PhysGym을 소개합니다. PhysGym의 주요 기여는 에이전트에게 제공되는 사전 지식 수준에 대한 정교한 제어에 있습니다. 이를 통해 연구자들은 문제의 복잡성과 사전 지식 수준을 포함한 축을 따라 에이전트 성능을 분석할 수 있습니다. 이 벤치마크는 에이전트가 환경을 능동적으로 탐색하고, 제약 하에서 순차적으로 데이터를 수집하며, 기본 물리 법칙에 대한 가설을 수립해야 하는 일련의 상호작용 시뮬레이션으로 구성됩니다. PhysGym은 가설 정확도와 모델 충실도를 평가하기 위한 표준화된 평가 프로토콜과 메트릭을 제공합니다. 우리는 베이스라인 LLM의 결과를 제시함으로써 벤치마크의 유용성을 입증하고, 다양한 사전 지식과 작업 복잡성에 기반한 능력을 구분할 수 있는 능력을 보여줍니다.
English
Evaluating the scientific discovery capabilities of large language model based agents, particularly how they cope with varying environmental complexity and utilize prior knowledge, requires specialized benchmarks currently lacking in the landscape. To address this gap, we introduce PhysGym, a novel benchmark suite and simulation platform for rigorously assessing LLM-based scientific reasoning in interactive physics environments. PhysGym's primary contribution lies in its sophisticated control over the level of prior knowledge provided to the agent. This allows researchers to dissect agent performance along axes including the complexity of the problem and the prior knowledge levels. The benchmark comprises a suite of interactive simulations, where agents must actively probe environments, gather data sequentially under constraints and formulate hypotheses about underlying physical laws. PhysGym provides standardized evaluation protocols and metrics for assessing hypothesis accuracy and model fidelity. We demonstrate the benchmark's utility by presenting results from baseline LLMs, showcasing its ability to differentiate capabilities based on varying priors and task complexity.
PDF32July 22, 2025