SCICONVBENCH: бенчмаркинг больших языковых моделей на многораундовых уточнениях для формулировки задач в вычислительной науке

Аннотация

Большие языковые модели (БЯМ) все чаще развертываются в качестве научных ИИ-ассистентов, и растущее число бенчмарков оценивает их способности в таких областях, как извлечение знаний, рассуждение, генерация кода и использование инструментов. Однако такие оценки обычно предполагают, что научная задача уже является корректно поставленной, тогда как на практике научная помощь часто начинается с некорректно сформулированного запроса пользователя, который необходимо уточнить в ходе диалога, прежде чем можно будет надежно провести вычисления, анализ или эксперимент. Мы представляем SCICONVBENCH — бенчмарк для многошагового уточнения при формулировке научных задач в четырех вычислительных предметных областях: механике жидкости, механике твердого тела, материаловедении и дифференциальных уравнениях в частных производных (ДУЧП). SCICONVBENCH нацелен на две взаимодополняющие способности: выявление недостающей информации (снятие неоднозначности) и обнаружение и исправление ошибочных запросов, содержащих внутренне противоречивую информацию (разрешение противоречий). Наш бенчмарк сочетает структурированную онтологию задачи с системой оценки на основе рубрик, что позволяет систематически измерять производительность БЯМ по трем измерениям: поведение при уточнении, диалоговое согласование и точность итоговой спецификации. Современные граничные модели демонстрируют относительно хорошие результаты при разрешении противоречий, однако даже лучшая модель решает лишь 52,7% случаев снятия неоднозначности в механике жидкости. Кроме того, мы обнаружили, что граничные БЯМ часто делают неявные предположения и выполняют скрытые исправления спецификации, не согласованные с пользователем в ходе диалога. SCICONVBENCH закладывает основу для оценки того предварительного диалогового рассуждения, которое требуется надежному ассистенту по вычислительным наукам. Код и данные доступны по адресу https://github.com/csml-rpi/SciConvBench.

English

Large Language Models (LLMs) are increasingly deployed as scientific AI as- sistants, and a growing body of benchmarks evaluates their capabilities across knowledge retrieval, reasoning, code generation, and tool use. These evaluations, however, typically assume the scientific problem is already well-posed, whereas practical scientific assistance often begins with an ill-posed user request that must be refined through dialogue before any computation, analysis, or experiment can be carried out reliably. We introduce SCICONVBENCH, a benchmark for multi- turn clarification in scientific task formulation across four computational science problem domains: fluid mechanics, solid mechanics, materials science, and par- tial differential equations (PDEs). SCICONVBENCH targets two complementary capabilities: eliciting missing information (disambiguation) and detecting and correcting erroneous requests containing internally contradictory information (in- consistency resolution). Our benchmark pairs a structured task ontology with a rubric-based evaluation framework, enabling systematic measurement of LLM per- formance across three dimensions: clarification behavior, conversational grounding, and final-specification fidelity. Current frontier models perform relatively well on inconsistency resolution, but even the best model resolves only 52.7% of the disambiguation cases in fluid mechanics. We further find that frontier LLMs fre- quently make silent assumptions and perform implicit specification repairs that are not grounded in the conversation with users. SCICONVBENCH establishes a foundation for evaluating the upstream conversational reasoning that a reliable computational science assistant requires. The code and data can be found at https://github.com/csml-rpi/SciConvBench.