ChatPaper.aiChatPaper

LLM-SRBench: 대규모 언어 모델을 활용한 과학적 방정식 발견을 위한 새로운 벤치마크

LLM-SRBench: A New Benchmark for Scientific Equation Discovery with Large Language Models

April 14, 2025
저자: Parshin Shojaee, Ngoc-Hieu Nguyen, Kazem Meidani, Amir Barati Farimani, Khoa D Doan, Chandan K Reddy
cs.AI

초록

과학적 방정식 발견은 자연 현상을 지배하는 법칙을 도출할 수 있게 해주는 과학 발전 역사의 근본적인 과제입니다. 최근 대형 언어 모델(LLM)은 내재된 과학 지식을 활용해 가설을 생성할 수 있는 잠재력으로 인해 이 과제에 대한 관심을 받고 있습니다. 그러나 이러한 방법들의 진정한 발견 능력을 평가하는 것은 여전히 어려운 과제로 남아 있습니다. 기존 벤치마크는 LLM이 암기하기 쉬운 일반적인 방정식에 의존하는 경우가 많아, 발견을 반영하지 못하는 과장된 성능 지표를 초래하기 때문입니다. 본 논문에서는 LLM 기반 과학적 방정식 발견 방법을 평가하기 위해 특별히 설계된 239개의 도전적인 문제로 구성된 포괄적인 벤치마크인 LLM-SRBench를 소개합니다. 이 벤치마크는 단순 암기를 방지하기 위해 두 가지 주요 범주로 구성됩니다: 첫째, LSR-Transform은 일반적인 물리적 모델을 덜 일반적인 수학적 표현으로 변환하여 암기된 형태를 넘어선 추론 능력을 테스트하고, 둘째, LSR-Synth는 데이터 기반 추론이 필요한 합성적이고 발견 지향적인 문제를 도입합니다. 오픈 및 클로즈드 LLM을 모두 사용하여 여러 최신 방법을 광범위하게 평가한 결과, 현재까지 가장 성능이 좋은 시스템은 단 31.5%의 기호 정확도를 달성했습니다. 이러한 결과는 과학적 방정식 발견의 어려움을 강조하며, LLM-SRBench를 미래 연구를 위한 귀중한 자원으로 자리매김하게 합니다.
English
Scientific equation discovery is a fundamental task in the history of scientific progress, enabling the derivation of laws governing natural phenomena. Recently, Large Language Models (LLMs) have gained interest for this task due to their potential to leverage embedded scientific knowledge for hypothesis generation. However, evaluating the true discovery capabilities of these methods remains challenging, as existing benchmarks often rely on common equations that are susceptible to memorization by LLMs, leading to inflated performance metrics that do not reflect discovery. In this paper, we introduce LLM-SRBench, a comprehensive benchmark with 239 challenging problems across four scientific domains specifically designed to evaluate LLM-based scientific equation discovery methods while preventing trivial memorization. Our benchmark comprises two main categories: LSR-Transform, which transforms common physical models into less common mathematical representations to test reasoning beyond memorized forms, and LSR-Synth, which introduces synthetic, discovery-driven problems requiring data-driven reasoning. Through extensive evaluation of several state-of-the-art methods, using both open and closed LLMs, we find that the best-performing system so far achieves only 31.5% symbolic accuracy. These findings highlight the challenges of scientific equation discovery, positioning LLM-SRBench as a valuable resource for future research.

Summary

AI-Generated Summary

PDF82April 15, 2025