ChatPaper.aiChatPaper

LLM-SRBench : Un nouveau benchmark pour la découverte d'équations scientifiques avec des modèles de langage de grande taille

LLM-SRBench: A New Benchmark for Scientific Equation Discovery with Large Language Models

April 14, 2025
Auteurs: Parshin Shojaee, Ngoc-Hieu Nguyen, Kazem Meidani, Amir Barati Farimani, Khoa D Doan, Chandan K Reddy
cs.AI

Résumé

La découverte d'équations scientifiques est une tâche fondamentale dans l'histoire du progrès scientifique, permettant de dériver les lois régissant les phénomènes naturels. Récemment, les modèles de langage de grande taille (LLMs) ont suscité un intérêt pour cette tâche en raison de leur potentiel à exploiter les connaissances scientifiques intégrées pour la génération d'hypothèses. Cependant, évaluer les véritables capacités de découverte de ces méthodes reste un défi, car les benchmarks existants reposent souvent sur des équations courantes qui peuvent être mémorisées par les LLMs, conduisant à des métriques de performance gonflées qui ne reflètent pas la découverte. Dans cet article, nous présentons LLM-SRBench, un benchmark complet avec 239 problèmes complexes répartis dans quatre domaines scientifiques, spécifiquement conçu pour évaluer les méthodes de découverte d'équations scientifiques basées sur les LLMs tout en empêchant la mémorisation triviale. Notre benchmark comprend deux catégories principales : LSR-Transform, qui transforme des modèles physiques courants en représentations mathématiques moins courantes pour tester le raisonnement au-delà des formes mémorisées, et LSR-Synth, qui introduit des problèmes synthétiques axés sur la découverte nécessitant un raisonnement basé sur les données. À travers une évaluation approfondie de plusieurs méthodes de pointe, utilisant à la fois des LLMs ouverts et fermés, nous constatons que le système le plus performant à ce jour n'atteint qu'une précision symbolique de 31,5 %. Ces résultats mettent en lumière les défis de la découverte d'équations scientifiques, positionnant LLM-SRBench comme une ressource précieuse pour les recherches futures.
English
Scientific equation discovery is a fundamental task in the history of scientific progress, enabling the derivation of laws governing natural phenomena. Recently, Large Language Models (LLMs) have gained interest for this task due to their potential to leverage embedded scientific knowledge for hypothesis generation. However, evaluating the true discovery capabilities of these methods remains challenging, as existing benchmarks often rely on common equations that are susceptible to memorization by LLMs, leading to inflated performance metrics that do not reflect discovery. In this paper, we introduce LLM-SRBench, a comprehensive benchmark with 239 challenging problems across four scientific domains specifically designed to evaluate LLM-based scientific equation discovery methods while preventing trivial memorization. Our benchmark comprises two main categories: LSR-Transform, which transforms common physical models into less common mathematical representations to test reasoning beyond memorized forms, and LSR-Synth, which introduces synthetic, discovery-driven problems requiring data-driven reasoning. Through extensive evaluation of several state-of-the-art methods, using both open and closed LLMs, we find that the best-performing system so far achieves only 31.5% symbolic accuracy. These findings highlight the challenges of scientific equation discovery, positioning LLM-SRBench as a valuable resource for future research.

Summary

AI-Generated Summary

PDF82April 15, 2025