LLM-SRBench: Ein neuer Benchmark für die Entdeckung wissenschaftlicher Gleichungen mit großen Sprachmodellen

papers.abstract

Die Entdeckung wissenschaftlicher Gleichungen ist eine grundlegende Aufgabe in der Geschichte des wissenschaftlichen Fortschritts, die es ermöglicht, Gesetze abzuleiten, die natürliche Phänomene regeln. In jüngster Zeit haben Large Language Models (LLMs) für diese Aufgabe Interesse geweckt, da sie das Potenzial haben, eingebettetes wissenschaftliches Wissen für die Hypothesengenerierung zu nutzen. Die Bewertung der tatsächlichen Entdeckungsfähigkeiten dieser Methoden bleibt jedoch eine Herausforderung, da bestehende Benchmarks oft auf gängigen Gleichungen basieren, die von LLMs auswendig gelernt werden können, was zu überhöhten Leistungsmetriken führt, die keine echte Entdeckung widerspiegeln. In diesem Artikel stellen wir LLM-SRBench vor, einen umfassenden Benchmark mit 239 anspruchsvollen Problemen aus vier wissenschaftlichen Domänen, der speziell entwickelt wurde, um LLM-basierte Methoden zur Entdeckung wissenschaftlicher Gleichungen zu bewerten und dabei triviales Auswendiglernen zu verhindern. Unser Benchmark besteht aus zwei Hauptkategorien: LSR-Transform, das gängige physikalische Modelle in weniger verbreitete mathematische Darstellungen umwandelt, um das Denken über auswendig gelernte Formen hinaus zu testen, und LSR-Synth, das synthetische, entdeckungsorientierte Probleme einführt, die datengesteuertes Denken erfordern. Durch umfangreiche Evaluierung mehrerer state-of-the-art Methoden, sowohl mit offenen als auch geschlossenen LLMs, stellen wir fest, dass das bisher beste System lediglich eine symbolische Genauigkeit von 31,5 % erreicht. Diese Ergebnisse unterstreichen die Herausforderungen der Entdeckung wissenschaftlicher Gleichungen und positionieren LLM-SRBench als wertvolle Ressource für zukünftige Forschung.

English

Scientific equation discovery is a fundamental task in the history of scientific progress, enabling the derivation of laws governing natural phenomena. Recently, Large Language Models (LLMs) have gained interest for this task due to their potential to leverage embedded scientific knowledge for hypothesis generation. However, evaluating the true discovery capabilities of these methods remains challenging, as existing benchmarks often rely on common equations that are susceptible to memorization by LLMs, leading to inflated performance metrics that do not reflect discovery. In this paper, we introduce LLM-SRBench, a comprehensive benchmark with 239 challenging problems across four scientific domains specifically designed to evaluate LLM-based scientific equation discovery methods while preventing trivial memorization. Our benchmark comprises two main categories: LSR-Transform, which transforms common physical models into less common mathematical representations to test reasoning beyond memorized forms, and LSR-Synth, which introduces synthetic, discovery-driven problems requiring data-driven reasoning. Through extensive evaluation of several state-of-the-art methods, using both open and closed LLMs, we find that the best-performing system so far achieves only 31.5% symbolic accuracy. These findings highlight the challenges of scientific equation discovery, positioning LLM-SRBench as a valuable resource for future research.

LLM-SRBench: Ein neuer Benchmark für die Entdeckung wissenschaftlicher Gleichungen mit großen Sprachmodellen

LLM-SRBench: A New Benchmark for Scientific Equation Discovery with Large Language Models

papers.abstract

Support