ChatPaper.aiChatPaper

LLM-SRBench: 大規模言語モデルを用いた科学的方程式発見のための新たなベンチマーク

LLM-SRBench: A New Benchmark for Scientific Equation Discovery with Large Language Models

April 14, 2025
著者: Parshin Shojaee, Ngoc-Hieu Nguyen, Kazem Meidani, Amir Barati Farimani, Khoa D Doan, Chandan K Reddy
cs.AI

要旨

科学的方程式発見は、科学の進歩の歴史において基本的な課題であり、自然現象を支配する法則の導出を可能にする。最近、大規模言語モデル(LLMs)は、埋め込まれた科学的知識を活用して仮説を生成する可能性があることから、この課題に対して注目を集めている。しかし、これらの手法の真の発見能力を評価することは依然として困難であり、既存のベンチマークはしばしばLLMsによる暗記が容易な一般的な方程式に依存しているため、発見を反映しない過大な性能指標が得られることが多い。本論文では、LLM-SRBenchを紹介する。これは、LLMベースの科学的方程式発見手法を評価するために特別に設計された、4つの科学分野にわたる239の挑戦的な問題を含む包括的なベンチマークであり、簡単な暗記を防ぐことを目的としている。我々のベンチマークは、主に2つのカテゴリで構成されている:LSR-Transformは、一般的な物理モデルをあまり一般的でない数学的表現に変換し、暗記された形式を超えた推論をテストするものであり、LSR-Synthは、データ駆動型の推論を必要とする合成的で発見指向の問題を導入する。オープンおよびクローズドのLLMsを使用したいくつかの最先端手法の広範な評価を通じて、これまでの最高性能のシステムでも31.5%の記号的精度しか達成されていないことがわかった。これらの結果は、科学的方程式発見の課題を浮き彫りにし、LLM-SRBenchを将来の研究における貴重なリソースとして位置づけている。
English
Scientific equation discovery is a fundamental task in the history of scientific progress, enabling the derivation of laws governing natural phenomena. Recently, Large Language Models (LLMs) have gained interest for this task due to their potential to leverage embedded scientific knowledge for hypothesis generation. However, evaluating the true discovery capabilities of these methods remains challenging, as existing benchmarks often rely on common equations that are susceptible to memorization by LLMs, leading to inflated performance metrics that do not reflect discovery. In this paper, we introduce LLM-SRBench, a comprehensive benchmark with 239 challenging problems across four scientific domains specifically designed to evaluate LLM-based scientific equation discovery methods while preventing trivial memorization. Our benchmark comprises two main categories: LSR-Transform, which transforms common physical models into less common mathematical representations to test reasoning beyond memorized forms, and LSR-Synth, which introduces synthetic, discovery-driven problems requiring data-driven reasoning. Through extensive evaluation of several state-of-the-art methods, using both open and closed LLMs, we find that the best-performing system so far achieves only 31.5% symbolic accuracy. These findings highlight the challenges of scientific equation discovery, positioning LLM-SRBench as a valuable resource for future research.

Summary

AI-Generated Summary

PDF82April 15, 2025