LLM-SRBench: 大規模言語モデルを用いた科学的方程式発見のための新たなベンチマーク
LLM-SRBench: A New Benchmark for Scientific Equation Discovery with Large Language Models
April 14, 2025
著者: Parshin Shojaee, Ngoc-Hieu Nguyen, Kazem Meidani, Amir Barati Farimani, Khoa D Doan, Chandan K Reddy
cs.AI
要旨
科学的方程式発見は、科学の進歩の歴史において基本的な課題であり、自然現象を支配する法則の導出を可能にする。最近、大規模言語モデル(LLMs)は、埋め込まれた科学的知識を活用して仮説を生成する可能性があることから、この課題に対して注目を集めている。しかし、これらの手法の真の発見能力を評価することは依然として困難であり、既存のベンチマークはしばしばLLMsによる暗記が容易な一般的な方程式に依存しているため、発見を反映しない過大な性能指標が得られることが多い。本論文では、LLM-SRBenchを紹介する。これは、LLMベースの科学的方程式発見手法を評価するために特別に設計された、4つの科学分野にわたる239の挑戦的な問題を含む包括的なベンチマークであり、簡単な暗記を防ぐことを目的としている。我々のベンチマークは、主に2つのカテゴリで構成されている:LSR-Transformは、一般的な物理モデルをあまり一般的でない数学的表現に変換し、暗記された形式を超えた推論をテストするものであり、LSR-Synthは、データ駆動型の推論を必要とする合成的で発見指向の問題を導入する。オープンおよびクローズドのLLMsを使用したいくつかの最先端手法の広範な評価を通じて、これまでの最高性能のシステムでも31.5%の記号的精度しか達成されていないことがわかった。これらの結果は、科学的方程式発見の課題を浮き彫りにし、LLM-SRBenchを将来の研究における貴重なリソースとして位置づけている。
English
Scientific equation discovery is a fundamental task in the history of
scientific progress, enabling the derivation of laws governing natural
phenomena. Recently, Large Language Models (LLMs) have gained interest for this
task due to their potential to leverage embedded scientific knowledge for
hypothesis generation. However, evaluating the true discovery capabilities of
these methods remains challenging, as existing benchmarks often rely on common
equations that are susceptible to memorization by LLMs, leading to inflated
performance metrics that do not reflect discovery. In this paper, we introduce
LLM-SRBench, a comprehensive benchmark with 239 challenging problems across
four scientific domains specifically designed to evaluate LLM-based scientific
equation discovery methods while preventing trivial memorization. Our benchmark
comprises two main categories: LSR-Transform, which transforms common physical
models into less common mathematical representations to test reasoning beyond
memorized forms, and LSR-Synth, which introduces synthetic, discovery-driven
problems requiring data-driven reasoning. Through extensive evaluation of
several state-of-the-art methods, using both open and closed LLMs, we find that
the best-performing system so far achieves only 31.5% symbolic accuracy. These
findings highlight the challenges of scientific equation discovery, positioning
LLM-SRBench as a valuable resource for future research.Summary
AI-Generated Summary