SR-サイエンティスト:エージェンティックAIを用いた科学的方程式の発見
SR-Scientist: Scientific Equation Discovery With Agentic AI
October 13, 2025
著者: Shijie Xia, Yuhan Sun, Pengfei Liu
cs.AI
要旨
近年、大規模言語モデル(LLMs)が科学的な方程式発見に応用され、その中に埋め込まれた科学的知識を活用して仮説生成が行われている。しかし、現在の手法では、LLMsは遺伝的プログラミングなどの探索アルゴリズム内で方程式提案者としての役割に限定されることが一般的である。本論文では、LLMsを単なる方程式提案者から、データを分析するコードを記述し、方程式をコードとして実装し、評価のために提出し、実験的フィードバックに基づいて方程式を最適化する自律的なAI科学者へと昇華させるフレームワーク「SR-Scientist」を提案する。具体的には、コードインタプリタをデータ分析および方程式評価のための一連のツールとしてラップする。エージェントは、人間が定義したパイプラインを最小限に抑えながら、これらのツールを長期的に活用して方程式を最適化するよう指示される。実験結果は、SR-Scientistが4つの科学分野をカバーするデータセットにおいて、ベースライン手法を6%から35%の絶対差で上回ることを示している。さらに、本手法のノイズに対する頑健性、発見された方程式のドメイン外データへの一般化、およびその記号的精度を実証する。加えて、エージェントの能力を向上させるためのエンドツーエンドの強化学習フレームワークを開発する。
English
Recently, Large Language Models (LLMs) have been applied to scientific
equation discovery, leveraging their embedded scientific knowledge for
hypothesis generation. However, current methods typically confine LLMs to the
role of an equation proposer within search algorithms like genetic programming.
In this paper, we present SR-Scientist, a framework that elevates the LLM from
a simple equation proposer to an autonomous AI scientist that writes code to
analyze data, implements the equation as code, submits it for evaluation, and
optimizes the equation based on experimental feedback. Specifically, we wrap
the code interpreter into a set of tools for data analysis and equation
evaluation. The agent is instructed to optimize the equation by utilizing these
tools over a long horizon with minimal human-defined pipelines. Empirical
results show that SR-Scientist outperforms baseline methods by an absolute
margin of 6% to 35% on datasets covering four science disciplines.
Additionally, we demonstrate our method's robustness to noise, the
generalization of the discovered equations to out-of-domain data, and their
symbolic accuracy. Furthermore, we develop an end-to-end reinforcement learning
framework to enhance the agent's capabilities.