LLM-SRBench: Um Novo Benchmark para Descoberta de Equações Científicas com Modelos de Linguagem de Grande Escala
LLM-SRBench: A New Benchmark for Scientific Equation Discovery with Large Language Models
April 14, 2025
Autores: Parshin Shojaee, Ngoc-Hieu Nguyen, Kazem Meidani, Amir Barati Farimani, Khoa D Doan, Chandan K Reddy
cs.AI
Resumo
A descoberta de equações científicas é uma tarefa fundamental na história do progresso científico, permitindo a derivação de leis que regem os fenômenos naturais. Recentemente, os Modelos de Linguagem de Grande Escala (LLMs, na sigla em inglês) têm despertado interesse para essa tarefa devido ao seu potencial de aproveitar o conhecimento científico embutido para a geração de hipóteses. No entanto, avaliar as verdadeiras capacidades de descoberta desses métodos permanece desafiador, uma vez que os benchmarks existentes frequentemente dependem de equações comuns que são suscetíveis à memorização pelos LLMs, resultando em métricas de desempenho infladas que não refletem a descoberta. Neste artigo, apresentamos o LLM-SRBench, um benchmark abrangente com 239 problemas desafiadores em quatro domínios científicos, especificamente projetado para avaliar métodos de descoberta de equações científicas baseados em LLMs, evitando a memorização trivial. Nosso benchmark compreende duas categorias principais: LSR-Transform, que transforma modelos físicos comuns em representações matemáticas menos comuns para testar o raciocínio além das formas memorizadas, e LSR-Synth, que introduz problemas sintéticos e orientados à descoberta, exigindo raciocínio baseado em dados. Por meio de uma avaliação extensa de vários métodos state-of-the-art, utilizando LLMs abertos e fechados, descobrimos que o sistema de melhor desempenho até agora alcança apenas 31,5% de precisão simbólica. Esses resultados destacam os desafios da descoberta de equações científicas, posicionando o LLM-SRBench como um recurso valioso para pesquisas futuras.
English
Scientific equation discovery is a fundamental task in the history of
scientific progress, enabling the derivation of laws governing natural
phenomena. Recently, Large Language Models (LLMs) have gained interest for this
task due to their potential to leverage embedded scientific knowledge for
hypothesis generation. However, evaluating the true discovery capabilities of
these methods remains challenging, as existing benchmarks often rely on common
equations that are susceptible to memorization by LLMs, leading to inflated
performance metrics that do not reflect discovery. In this paper, we introduce
LLM-SRBench, a comprehensive benchmark with 239 challenging problems across
four scientific domains specifically designed to evaluate LLM-based scientific
equation discovery methods while preventing trivial memorization. Our benchmark
comprises two main categories: LSR-Transform, which transforms common physical
models into less common mathematical representations to test reasoning beyond
memorized forms, and LSR-Synth, which introduces synthetic, discovery-driven
problems requiring data-driven reasoning. Through extensive evaluation of
several state-of-the-art methods, using both open and closed LLMs, we find that
the best-performing system so far achieves only 31.5% symbolic accuracy. These
findings highlight the challenges of scientific equation discovery, positioning
LLM-SRBench as a valuable resource for future research.Summary
AI-Generated Summary