LLM-SRBench: Un nuevo punto de referencia para el descubrimiento de ecuaciones científicas con modelos de lenguaje de gran escala
LLM-SRBench: A New Benchmark for Scientific Equation Discovery with Large Language Models
April 14, 2025
Autores: Parshin Shojaee, Ngoc-Hieu Nguyen, Kazem Meidani, Amir Barati Farimani, Khoa D Doan, Chandan K Reddy
cs.AI
Resumen
El descubrimiento de ecuaciones científicas es una tarea fundamental en la historia del progreso científico, permitiendo la derivación de leyes que gobiernan los fenómenos naturales. Recientemente, los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han despertado interés para esta tarea debido a su potencial para aprovechar el conocimiento científico integrado en la generación de hipótesis. Sin embargo, evaluar las verdaderas capacidades de descubrimiento de estos métodos sigue siendo un desafío, ya que los puntos de referencia existentes a menudo se basan en ecuaciones comunes que son susceptibles de ser memorizadas por los LLMs, lo que lleva a métricas de rendimiento infladas que no reflejan el descubrimiento. En este artículo, presentamos LLM-SRBench, un punto de referencia integral con 239 problemas desafiantes en cuatro dominios científicos, diseñado específicamente para evaluar métodos de descubrimiento de ecuaciones científicas basados en LLMs, evitando la memorización trivial. Nuestro punto de referencia comprende dos categorías principales: LSR-Transform, que transforma modelos físicos comunes en representaciones matemáticas menos comunes para probar el razonamiento más allá de las formas memorizadas, y LSR-Synth, que introduce problemas sintéticos orientados al descubrimiento que requieren razonamiento basado en datos. A través de una evaluación extensa de varios métodos de vanguardia, utilizando tanto LLMs abiertos como cerrados, encontramos que el sistema con mejor rendimiento hasta ahora alcanza solo un 31,5% de precisión simbólica. Estos hallazgos resaltan los desafíos del descubrimiento de ecuaciones científicas, posicionando a LLM-SRBench como un recurso valioso para futuras investigaciones.
English
Scientific equation discovery is a fundamental task in the history of
scientific progress, enabling the derivation of laws governing natural
phenomena. Recently, Large Language Models (LLMs) have gained interest for this
task due to their potential to leverage embedded scientific knowledge for
hypothesis generation. However, evaluating the true discovery capabilities of
these methods remains challenging, as existing benchmarks often rely on common
equations that are susceptible to memorization by LLMs, leading to inflated
performance metrics that do not reflect discovery. In this paper, we introduce
LLM-SRBench, a comprehensive benchmark with 239 challenging problems across
four scientific domains specifically designed to evaluate LLM-based scientific
equation discovery methods while preventing trivial memorization. Our benchmark
comprises two main categories: LSR-Transform, which transforms common physical
models into less common mathematical representations to test reasoning beyond
memorized forms, and LSR-Synth, which introduces synthetic, discovery-driven
problems requiring data-driven reasoning. Through extensive evaluation of
several state-of-the-art methods, using both open and closed LLMs, we find that
the best-performing system so far achieves only 31.5% symbolic accuracy. These
findings highlight the challenges of scientific equation discovery, positioning
LLM-SRBench as a valuable resource for future research.Summary
AI-Generated Summary