SCICONVBENCH: Benchmarking von LLMs zur mehrschrittigen Klärung für die Aufgabenformulierung in der Computational Science

Zusammenfassung

Große Sprachmodelle (Large Language Models, LLMs) werden zunehmend als wissenschaftliche KI-Assistenten eingesetzt, und eine wachsende Anzahl von Benchmarks bewertet ihre Fähigkeiten in den Bereichen Wissensabruf, logisches Denken, Codegenerierung und Werkzeugnutzung. Diese Bewertungen gehen jedoch in der Regel davon aus, dass das wissenschaftliche Problem bereits gut gestellt ist, während die praktische wissenschaftliche Unterstützung oft mit einer schlecht gestellten Benutzeranfrage beginnt, die erst durch einen Dialog verfeinert werden muss, bevor eine Berechnung, Analyse oder ein Experiment zuverlässig durchgeführt werden kann. Wir stellen SCICONVBENCH vor, einen Benchmark für mehrstufige Klärung bei der Formulierung wissenschaftlicher Aufgaben in vier rechnergestützten naturwissenschaftlichen Problembereichen: Strömungsmechanik, Festkörpermechanik, Materialwissenschaften und partielle Differentialgleichungen (PDEs). SCICONVBENCH zielt auf zwei komplementäre Fähigkeiten ab: das Ermitteln fehlender Informationen (Disambiguierung) und das Erkennen und Korrigieren fehlerhafter Anfragen mit widersprüchlichen Informationen (Inkonsistenzauflösung). Unser Benchmark kombiniert eine strukturierte Aufgabenontologie mit einem rubrikbasierten Bewertungsrahmen und ermöglicht so eine systematische Messung der LLM-Leistung in drei Dimensionen: Klärungsverhalten, konversationelle Verankerung und Treue der Endspezifikation. Aktuelle Grenzmodelle schneiden bei der Inkonsistenzauflösung relativ gut ab, doch selbst das beste Modell löst nur 52,7 % der Disambiguierungsfälle in der Strömungsmechanik. Darüber hinaus stellen wir fest, dass Grenz-LLMs häufig stillschweigende Annahmen treffen und implizite Spezifikationsreparaturen vornehmen, die nicht im Gespräch mit den Benutzern verankert sind. SCICONVBENCH legt eine Grundlage für die Bewertung des vorgelagerten konversationellen Denkens, das ein zuverlässiger rechnergestützter Wissenschaftsassistent benötigt. Der Code und die Daten sind unter https://github.com/csml-rpi/SciConvBench zu finden.

English

Large Language Models (LLMs) are increasingly deployed as scientific AI as- sistants, and a growing body of benchmarks evaluates their capabilities across knowledge retrieval, reasoning, code generation, and tool use. These evaluations, however, typically assume the scientific problem is already well-posed, whereas practical scientific assistance often begins with an ill-posed user request that must be refined through dialogue before any computation, analysis, or experiment can be carried out reliably. We introduce SCICONVBENCH, a benchmark for multi- turn clarification in scientific task formulation across four computational science problem domains: fluid mechanics, solid mechanics, materials science, and par- tial differential equations (PDEs). SCICONVBENCH targets two complementary capabilities: eliciting missing information (disambiguation) and detecting and correcting erroneous requests containing internally contradictory information (in- consistency resolution). Our benchmark pairs a structured task ontology with a rubric-based evaluation framework, enabling systematic measurement of LLM per- formance across three dimensions: clarification behavior, conversational grounding, and final-specification fidelity. Current frontier models perform relatively well on inconsistency resolution, but even the best model resolves only 52.7% of the disambiguation cases in fluid mechanics. We further find that frontier LLMs fre- quently make silent assumptions and perform implicit specification repairs that are not grounded in the conversation with users. SCICONVBENCH establishes a foundation for evaluating the upstream conversational reasoning that a reliable computational science assistant requires. The code and data can be found at https://github.com/csml-rpi/SciConvBench.