SR-Wissenschaftler: Wissenschaftliche Gleichungsentdeckung mit agentenbasierter KI
SR-Scientist: Scientific Equation Discovery With Agentic AI
October 13, 2025
papers.authors: Shijie Xia, Yuhan Sun, Pengfei Liu
cs.AI
papers.abstract
Kürzlich wurden Large Language Models (LLMs) zur Entdeckung wissenschaftlicher Gleichungen eingesetzt, wobei ihr eingebettetes wissenschaftliches Wissen zur Hypothesengenerierung genutzt wurde. Allerdings beschränken aktuelle Methoden LLMs typischerweise auf die Rolle eines Gleichungsvorschlagsgebers innerhalb von Suchalgorithmen wie der genetischen Programmierung. In diesem Artikel stellen wir SR-Scientist vor, ein Framework, das den LLM von einem einfachen Gleichungsvorschlagsgeber zu einem autonomen KI-Wissenschaftler erhebt, der Code schreibt, um Daten zu analysieren, die Gleichung als Code zu implementieren, sie zur Bewertung einzureichen und die Gleichung basierend auf experimentellem Feedback zu optimieren. Konkret integrieren wir den Code-Interpreter in eine Reihe von Werkzeugen für die Datenanalyse und Gleichungsbewertung. Der Agent wird angewiesen, die Gleichung durch die Nutzung dieser Werkzeuge über einen langen Zeitraum mit minimalen, vom Menschen definierten Pipelines zu optimieren. Empirische Ergebnisse zeigen, dass SR-Scientist Baseline-Methoden mit einem absoluten Vorsprung von 6 % bis 35 % auf Datensätzen aus vier wissenschaftlichen Disziplinen übertrifft. Zudem demonstrieren wir die Robustheit unserer Methode gegenüber Rauschen, die Generalisierbarkeit der entdeckten Gleichungen auf außerhalb der Domäne liegende Daten sowie deren symbolische Genauigkeit. Darüber hinaus entwickeln wir ein end-to-end Reinforcement-Learning-Framework, um die Fähigkeiten des Agents zu erweitern.
English
Recently, Large Language Models (LLMs) have been applied to scientific
equation discovery, leveraging their embedded scientific knowledge for
hypothesis generation. However, current methods typically confine LLMs to the
role of an equation proposer within search algorithms like genetic programming.
In this paper, we present SR-Scientist, a framework that elevates the LLM from
a simple equation proposer to an autonomous AI scientist that writes code to
analyze data, implements the equation as code, submits it for evaluation, and
optimizes the equation based on experimental feedback. Specifically, we wrap
the code interpreter into a set of tools for data analysis and equation
evaluation. The agent is instructed to optimize the equation by utilizing these
tools over a long horizon with minimal human-defined pipelines. Empirical
results show that SR-Scientist outperforms baseline methods by an absolute
margin of 6% to 35% on datasets covering four science disciplines.
Additionally, we demonstrate our method's robustness to noise, the
generalization of the discovered equations to out-of-domain data, and their
symbolic accuracy. Furthermore, we develop an end-to-end reinforcement learning
framework to enhance the agent's capabilities.