LLM-SRBench: Новый эталонный тест для открытия научных уравнений с использованием крупных языковых моделей
LLM-SRBench: A New Benchmark for Scientific Equation Discovery with Large Language Models
April 14, 2025
Авторы: Parshin Shojaee, Ngoc-Hieu Nguyen, Kazem Meidani, Amir Barati Farimani, Khoa D Doan, Chandan K Reddy
cs.AI
Аннотация
Открытие научных уравнений является фундаментальной задачей в истории научного прогресса, позволяющей выводить законы, управляющие природными явлениями. В последнее время большие языковые модели (LLM) вызывают интерес для решения этой задачи благодаря их способности использовать встроенные научные знания для генерации гипотез. Однако оценка истинных возможностей этих методов в области открытий остается сложной, поскольку существующие тестовые наборы часто опираются на распространенные уравнения, которые могут быть запомнены LLM, что приводит к завышенным показателям производительности, не отражающим реальное открытие. В данной статье мы представляем LLM-SRBench — всеобъемлющий тестовый набор из 239 сложных задач в четырех научных областях, специально разработанный для оценки методов открытия научных уравнений на основе LLM, предотвращая тривиальное запоминание. Наш тестовый набор состоит из двух основных категорий: LSR-Transform, которая преобразует распространенные физические модели в менее распространенные математические представления для проверки способности рассуждать за пределами запомненных форм, и LSR-Synth, которая вводит синтетические задачи, ориентированные на открытие и требующие анализа данных. В ходе масштабной оценки нескольких современных методов с использованием как открытых, так и закрытых LLM мы обнаружили, что лучшая на данный момент система достигает лишь 31,5% символической точности. Эти результаты подчеркивают сложность задачи открытия научных уравнений, позиционируя LLM-SRBench как ценный ресурс для будущих исследований.
English
Scientific equation discovery is a fundamental task in the history of
scientific progress, enabling the derivation of laws governing natural
phenomena. Recently, Large Language Models (LLMs) have gained interest for this
task due to their potential to leverage embedded scientific knowledge for
hypothesis generation. However, evaluating the true discovery capabilities of
these methods remains challenging, as existing benchmarks often rely on common
equations that are susceptible to memorization by LLMs, leading to inflated
performance metrics that do not reflect discovery. In this paper, we introduce
LLM-SRBench, a comprehensive benchmark with 239 challenging problems across
four scientific domains specifically designed to evaluate LLM-based scientific
equation discovery methods while preventing trivial memorization. Our benchmark
comprises two main categories: LSR-Transform, which transforms common physical
models into less common mathematical representations to test reasoning beyond
memorized forms, and LSR-Synth, which introduces synthetic, discovery-driven
problems requiring data-driven reasoning. Through extensive evaluation of
several state-of-the-art methods, using both open and closed LLMs, we find that
the best-performing system so far achieves only 31.5% symbolic accuracy. These
findings highlight the challenges of scientific equation discovery, positioning
LLM-SRBench as a valuable resource for future research.Summary
AI-Generated Summary