SR-과학자: 에이전트 AI를 활용한 과학적 방정식 발견
SR-Scientist: Scientific Equation Discovery With Agentic AI
October 13, 2025
저자: Shijie Xia, Yuhan Sun, Pengfei Liu
cs.AI
초록
최근 대형 언어 모델(LLMs)은 내재된 과학적 지식을 활용하여 과학적 방정식 발견에 적용되고 있다. 그러나 현재의 방법들은 일반적으로 LLMs를 유전자 프로그래밍과 같은 탐색 알고리즘 내에서 단순한 방정식 제안자 역할로 제한한다. 본 논문에서는 LLMs를 단순한 방정식 제안자에서 데이터를 분석하고, 방정식을 코드로 구현하며, 평가를 위해 제출하고, 실험적 피드백을 기반으로 방정식을 최적화하는 자율적인 AI 과학자로 격상시키는 SR-Scientist 프레임워크를 제안한다. 구체적으로, 코드 인터프리터를 데이터 분석 및 방정식 평가를 위한 도구 세트로 포장한다. 에이전트는 인간이 정의한 파이프라인을 최소화하면서 장기간에 걸쳐 이러한 도구를 활용하여 방정식을 최적화하도록 지시받는다. 실험 결과, SR-Scientist는 네 가지 과학 분야를 포괄하는 데이터셋에서 기준 방법들보다 6%에서 35%의 절대적 차이로 우수한 성능을 보인다. 또한, 본 방법의 노이즈에 대한 강건성, 발견된 방정식의 도메인 외 데이터로의 일반화 능력, 그리고 기호적 정확성을 입증한다. 더 나아가, 에이전트의 능력을 향상시키기 위한 종단간 강화 학습 프레임워크를 개발한다.
English
Recently, Large Language Models (LLMs) have been applied to scientific
equation discovery, leveraging their embedded scientific knowledge for
hypothesis generation. However, current methods typically confine LLMs to the
role of an equation proposer within search algorithms like genetic programming.
In this paper, we present SR-Scientist, a framework that elevates the LLM from
a simple equation proposer to an autonomous AI scientist that writes code to
analyze data, implements the equation as code, submits it for evaluation, and
optimizes the equation based on experimental feedback. Specifically, we wrap
the code interpreter into a set of tools for data analysis and equation
evaluation. The agent is instructed to optimize the equation by utilizing these
tools over a long horizon with minimal human-defined pipelines. Empirical
results show that SR-Scientist outperforms baseline methods by an absolute
margin of 6% to 35% on datasets covering four science disciplines.
Additionally, we demonstrate our method's robustness to noise, the
generalization of the discovered equations to out-of-domain data, and their
symbolic accuracy. Furthermore, we develop an end-to-end reinforcement learning
framework to enhance the agent's capabilities.