SR-Wissenschaftler: Wissenschaftliche Gleichungsentdeckung mit agentenbasierter KI

papers.abstract

Kürzlich wurden Large Language Models (LLMs) zur Entdeckung wissenschaftlicher Gleichungen eingesetzt, wobei ihr eingebettetes wissenschaftliches Wissen zur Hypothesengenerierung genutzt wurde. Allerdings beschränken aktuelle Methoden LLMs typischerweise auf die Rolle eines Gleichungsvorschlagsgebers innerhalb von Suchalgorithmen wie der genetischen Programmierung. In diesem Artikel stellen wir SR-Scientist vor, ein Framework, das den LLM von einem einfachen Gleichungsvorschlagsgeber zu einem autonomen KI-Wissenschaftler erhebt, der Code schreibt, um Daten zu analysieren, die Gleichung als Code zu implementieren, sie zur Bewertung einzureichen und die Gleichung basierend auf experimentellem Feedback zu optimieren. Konkret integrieren wir den Code-Interpreter in eine Reihe von Werkzeugen für die Datenanalyse und Gleichungsbewertung. Der Agent wird angewiesen, die Gleichung durch die Nutzung dieser Werkzeuge über einen langen Zeitraum mit minimalen, vom Menschen definierten Pipelines zu optimieren. Empirische Ergebnisse zeigen, dass SR-Scientist Baseline-Methoden mit einem absoluten Vorsprung von 6 % bis 35 % auf Datensätzen aus vier wissenschaftlichen Disziplinen übertrifft. Zudem demonstrieren wir die Robustheit unserer Methode gegenüber Rauschen, die Generalisierbarkeit der entdeckten Gleichungen auf außerhalb der Domäne liegende Daten sowie deren symbolische Genauigkeit. Darüber hinaus entwickeln wir ein end-to-end Reinforcement-Learning-Framework, um die Fähigkeiten des Agents zu erweitern.

English

Recently, Large Language Models (LLMs) have been applied to scientific equation discovery, leveraging their embedded scientific knowledge for hypothesis generation. However, current methods typically confine LLMs to the role of an equation proposer within search algorithms like genetic programming. In this paper, we present SR-Scientist, a framework that elevates the LLM from a simple equation proposer to an autonomous AI scientist that writes code to analyze data, implements the equation as code, submits it for evaluation, and optimizes the equation based on experimental feedback. Specifically, we wrap the code interpreter into a set of tools for data analysis and equation evaluation. The agent is instructed to optimize the equation by utilizing these tools over a long horizon with minimal human-defined pipelines. Empirical results show that SR-Scientist outperforms baseline methods by an absolute margin of 6% to 35% on datasets covering four science disciplines. Additionally, we demonstrate our method's robustness to noise, the generalization of the discovered equations to out-of-domain data, and their symbolic accuracy. Furthermore, we develop an end-to-end reinforcement learning framework to enhance the agent's capabilities.

SR-Wissenschaftler: Wissenschaftliche Gleichungsentdeckung mit agentenbasierter KI

SR-Scientist: Scientific Equation Discovery With Agentic AI

papers.abstract

Support