LLM-SRBench: Ein neuer Benchmark für die Entdeckung wissenschaftlicher Gleichungen mit großen Sprachmodellen
LLM-SRBench: A New Benchmark for Scientific Equation Discovery with Large Language Models
April 14, 2025
Autoren: Parshin Shojaee, Ngoc-Hieu Nguyen, Kazem Meidani, Amir Barati Farimani, Khoa D Doan, Chandan K Reddy
cs.AI
Zusammenfassung
Die Entdeckung wissenschaftlicher Gleichungen ist eine grundlegende Aufgabe in der Geschichte des wissenschaftlichen Fortschritts, die es ermöglicht, Gesetze abzuleiten, die natürliche Phänomene regeln. In jüngster Zeit haben Large Language Models (LLMs) für diese Aufgabe Interesse geweckt, da sie das Potenzial haben, eingebettetes wissenschaftliches Wissen für die Hypothesengenerierung zu nutzen. Die Bewertung der tatsächlichen Entdeckungsfähigkeiten dieser Methoden bleibt jedoch eine Herausforderung, da bestehende Benchmarks oft auf gängigen Gleichungen basieren, die von LLMs auswendig gelernt werden können, was zu überhöhten Leistungsmetriken führt, die keine echte Entdeckung widerspiegeln. In diesem Artikel stellen wir LLM-SRBench vor, einen umfassenden Benchmark mit 239 anspruchsvollen Problemen aus vier wissenschaftlichen Domänen, der speziell entwickelt wurde, um LLM-basierte Methoden zur Entdeckung wissenschaftlicher Gleichungen zu bewerten und dabei triviales Auswendiglernen zu verhindern. Unser Benchmark besteht aus zwei Hauptkategorien: LSR-Transform, das gängige physikalische Modelle in weniger verbreitete mathematische Darstellungen umwandelt, um das Denken über auswendig gelernte Formen hinaus zu testen, und LSR-Synth, das synthetische, entdeckungsorientierte Probleme einführt, die datengesteuertes Denken erfordern. Durch umfangreiche Evaluierung mehrerer state-of-the-art Methoden, sowohl mit offenen als auch geschlossenen LLMs, stellen wir fest, dass das bisher beste System lediglich eine symbolische Genauigkeit von 31,5 % erreicht. Diese Ergebnisse unterstreichen die Herausforderungen der Entdeckung wissenschaftlicher Gleichungen und positionieren LLM-SRBench als wertvolle Ressource für zukünftige Forschung.
English
Scientific equation discovery is a fundamental task in the history of
scientific progress, enabling the derivation of laws governing natural
phenomena. Recently, Large Language Models (LLMs) have gained interest for this
task due to their potential to leverage embedded scientific knowledge for
hypothesis generation. However, evaluating the true discovery capabilities of
these methods remains challenging, as existing benchmarks often rely on common
equations that are susceptible to memorization by LLMs, leading to inflated
performance metrics that do not reflect discovery. In this paper, we introduce
LLM-SRBench, a comprehensive benchmark with 239 challenging problems across
four scientific domains specifically designed to evaluate LLM-based scientific
equation discovery methods while preventing trivial memorization. Our benchmark
comprises two main categories: LSR-Transform, which transforms common physical
models into less common mathematical representations to test reasoning beyond
memorized forms, and LSR-Synth, which introduces synthetic, discovery-driven
problems requiring data-driven reasoning. Through extensive evaluation of
several state-of-the-art methods, using both open and closed LLMs, we find that
the best-performing system so far achieves only 31.5% symbolic accuracy. These
findings highlight the challenges of scientific equation discovery, positioning
LLM-SRBench as a valuable resource for future research.Summary
AI-Generated Summary