SciPredict: Могут ли большие языковые модели предсказывать результаты научных экспериментов в естественных науках?

Аннотация

Ускорение научных открытий требует определения, какие эксперименты принесут наилучшие результаты, до выделения ресурсов на дорогостоящую физическую валидацию. Хотя существующие бенчмарки оценивают большие языковые модели (LLM) на предмет научных знаний и логического мышления, их способность предсказывать результаты экспериментов — задача, в которой ИИ мог бы значительно превзойти человеческие возможности — остаётся в значительной степени неисследованной. Мы представляем SciPredict — бенчмарк, состоящий из 405 задач, полученных из недавних эмпирических исследований в 33 специализированных подразделах физики, биологии и химии. SciPredict решает два ключевых вопроса: (а) могут ли LLM предсказывать исход научных экспериментов с достаточной точностью? и (б) можно ли надёжно использовать такие предсказания в научно-исследовательском процессе? Оценки выявляют фундаментальные ограничения по обоим направлениям. Точность моделей составляет 14–26%, а производительность экспертов-людей — около 20%. Хотя некоторые передовые модели превосходят человеческие показатели, их точность всё ещё значительно ниже уровня, необходимого для надёжного руководства экспериментами. Даже в рамках ограниченной производительности модели не способны отличить надёжные предсказания от ненадёжных, демонстрируя точность лишь около 20% независимо от их уверенности или от того, считают ли они исходы предсказуемыми без физического эксперимента. Эксперты-люди, напротив, демонстрируют сильную калибровку: их точность возрастает с примерно 5% до примерно 80% по мере того, как они считают исходы более предсказуемыми без проведения эксперимента. SciPredict устанавливает строгую основу, демонстрирующую, что сверхчеловеческая производительность в экспериментальной науке требует не только лучших предсказаний, но и лучшего понимания надёжности этих предсказаний. Для обеспечения воспроизводимости все наши данные и код доступны по адресу https://github.com/scaleapi/scipredict.

English

Accelerating scientific discovery requires the identification of which experiments would yield the best outcomes before committing resources to costly physical validation. While existing benchmarks evaluate LLMs on scientific knowledge and reasoning, their ability to predict experimental outcomes - a task where AI could significantly exceed human capabilities - remains largely underexplored. We introduce SciPredict, a benchmark comprising 405 tasks derived from recent empirical studies in 33 specialized sub-fields of physics, biology, and chemistry. SciPredict addresses two critical questions: (a) can LLMs predict the outcome of scientific experiments with sufficient accuracy? and (b) can such predictions be reliably used in the scientific research process? Evaluations reveal fundamental limitations on both fronts. Model accuracies are 14-26% and human expert performance is approx20%. Although some frontier models exceed human performance model accuracy is still far below what would enable reliable experimental guidance. Even within the limited performance, models fail to distinguish reliable predictions from unreliable ones, achieving only approx20% accuracy regardless of their confidence or whether they judge outcomes as predictable without physical experimentation. Human experts, in contrast, demonstrate strong calibration: their accuracy increases from approx5% to approx80% as they deem outcomes more predictable without conducting the experiment. SciPredict establishes a rigorous framework demonstrating that superhuman performance in experimental science requires not just better predictions, but better awareness of prediction reliability. For reproducibility all our data and code are provided at https://github.com/scaleapi/scipredict

SciPredict: Могут ли большие языковые модели предсказывать результаты научных экспериментов в естественных науках?

SciPredict: Can LLMs Predict the Outcomes of Scientific Experiments in Natural Sciences?

Аннотация

Support