ChatPaper.aiChatPaper

LLM-SRBench: Een nieuwe benchmark voor de ontdekking van wetenschappelijke vergelijkingen met grote taalmodellen

LLM-SRBench: A New Benchmark for Scientific Equation Discovery with Large Language Models

April 14, 2025
Auteurs: Parshin Shojaee, Ngoc-Hieu Nguyen, Kazem Meidani, Amir Barati Farimani, Khoa D Doan, Chandan K Reddy
cs.AI

Samenvatting

Het ontdekken van wetenschappelijke vergelijkingen is een fundamentele taak in de geschiedenis van wetenschappelijke vooruitgang, waardoor wetten die natuurlijke fenomenen beschrijven kunnen worden afgeleid. Recentelijk hebben Large Language Models (LLMs) interesse gewekt voor deze taak vanwege hun potentieel om ingebedde wetenschappelijke kennis te benutten voor het genereren van hypothesen. Het evalueren van de werkelijke ontdekkingscapaciteiten van deze methoden blijft echter uitdagend, omdat bestaande benchmarks vaak vertrouwen op veelvoorkomende vergelijkingen die gevoelig zijn voor memorisatie door LLMs, wat leidt tot opgeblazen prestatiemetingen die geen echte ontdekking weerspiegelen. In dit artikel introduceren we LLM-SRBench, een uitgebreide benchmark met 239 uitdagende problemen uit vier wetenschappelijke domeinen, specifiek ontworpen om LLM-gebaseerde methoden voor het ontdekken van wetenschappelijke vergelijkingen te evalueren terwijl triviale memorisatie wordt voorkomen. Onze benchmark bestaat uit twee hoofdcategorieën: LSR-Transform, die veelvoorkomende fysieke modellen omzet in minder gebruikelijke wiskundige representaties om redenering voorbij gememoriseerde vormen te testen, en LSR-Synth, die synthetische, ontdekking-gedreven problemen introduceert die data-gedreven redenering vereisen. Door uitgebreide evaluatie van verschillende state-of-the-art methoden, met zowel open als gesloten LLMs, vinden we dat het tot nu toe best presterende systeem slechts 31,5% symbolische nauwkeurigheid bereikt. Deze bevindingen benadrukken de uitdagingen van het ontdekken van wetenschappelijke vergelijkingen en positioneren LLM-SRBench als een waardevolle bron voor toekomstig onderzoek.
English
Scientific equation discovery is a fundamental task in the history of scientific progress, enabling the derivation of laws governing natural phenomena. Recently, Large Language Models (LLMs) have gained interest for this task due to their potential to leverage embedded scientific knowledge for hypothesis generation. However, evaluating the true discovery capabilities of these methods remains challenging, as existing benchmarks often rely on common equations that are susceptible to memorization by LLMs, leading to inflated performance metrics that do not reflect discovery. In this paper, we introduce LLM-SRBench, a comprehensive benchmark with 239 challenging problems across four scientific domains specifically designed to evaluate LLM-based scientific equation discovery methods while preventing trivial memorization. Our benchmark comprises two main categories: LSR-Transform, which transforms common physical models into less common mathematical representations to test reasoning beyond memorized forms, and LSR-Synth, which introduces synthetic, discovery-driven problems requiring data-driven reasoning. Through extensive evaluation of several state-of-the-art methods, using both open and closed LLMs, we find that the best-performing system so far achieves only 31.5% symbolic accuracy. These findings highlight the challenges of scientific equation discovery, positioning LLM-SRBench as a valuable resource for future research.

Summary

AI-Generated Summary

PDF82April 15, 2025