ChatPaper.aiChatPaper

SCICONVBENCH : Évaluation comparative des LLMs sur la clarification multi-tour pour la formulation de tâches en science computationnelle

SCICONVBENCH: Benchmarking LLMs on Multi-Turn Clarification for Task Formulation in Computational Science

May 18, 2026
Auteurs: Nithin Somasekharan, Youssef Hassan, Shiyao Lin, Gihan Panapitiya, Patrick Emami, Anurag Acharya, Sameera Horawalavithana, Shaowu Pan
cs.AI

Résumé

Les grands modèles de langue (LLM) sont de plus en plus déployés en tant qu'assistants scientifiques en IA, et un nombre croissant de bancs d'essai évalue leurs capacités dans des domaines tels que la recherche de connaissances, le raisonnement, la génération de code et l'utilisation d'outils. Ces évaluations supposent cependant généralement que le problème scientifique est déjà bien posé, alors qu'en pratique, l'assistance scientifique commence souvent par une demande utilisateur mal définie qui doit être affinée par un dialogue avant que tout calcul, analyse ou expérience puisse être mené de manière fiable. Nous présentons SCICONVBENCH, un banc d'essai pour la clarification multi-tours dans la formulation de tâches scientifiques, couvrant quatre domaines de problèmes en science computationnelle : la mécanique des fluides, la mécanique des solides, la science des matériaux et les équations aux dérivées partielles (EDP). SCICONVBENCH cible deux capacités complémentaires : l'obtention d'informations manquantes (désambiguation) et la détection et correction de demandes erronées contenant des informations intérieurement contradictoires (résolution d'incohérence). Notre banc d'essai associe une ontologie de tâche structurée à un cadre d'évaluation basé sur une grille de notation, permettant une mesure systématique des performances du LLM selon trois dimensions : le comportement de clarification, l'ancrage conversationnel et la fidélité de la spécification finale. Les modèles de pointe actuels obtiennent des résultats relativement bons sur la résolution d'incohérence, mais même le meilleur modèle ne résout que 52,7 % des cas de désambiguation en mécanique des fluides. Nous constatons en outre que les LLM de pointe font fréquemment des hypothèses silencieuses et effectuent des réparations implicites de spécifications qui ne sont pas ancrées dans la conversation avec les utilisateurs. SCICONVBENCH établit une base pour l'évaluation du raisonnement conversationnel préalable dont un assistant fiable en science computationnelle a besoin. Le code et les données sont disponibles à l'adresse https://github.com/csml-rpi/SciConvBench.
English
Large Language Models (LLMs) are increasingly deployed as scientific AI as- sistants, and a growing body of benchmarks evaluates their capabilities across knowledge retrieval, reasoning, code generation, and tool use. These evaluations, however, typically assume the scientific problem is already well-posed, whereas practical scientific assistance often begins with an ill-posed user request that must be refined through dialogue before any computation, analysis, or experiment can be carried out reliably. We introduce SCICONVBENCH, a benchmark for multi- turn clarification in scientific task formulation across four computational science problem domains: fluid mechanics, solid mechanics, materials science, and par- tial differential equations (PDEs). SCICONVBENCH targets two complementary capabilities: eliciting missing information (disambiguation) and detecting and correcting erroneous requests containing internally contradictory information (in- consistency resolution). Our benchmark pairs a structured task ontology with a rubric-based evaluation framework, enabling systematic measurement of LLM per- formance across three dimensions: clarification behavior, conversational grounding, and final-specification fidelity. Current frontier models perform relatively well on inconsistency resolution, but even the best model resolves only 52.7% of the disambiguation cases in fluid mechanics. We further find that frontier LLMs fre- quently make silent assumptions and perform implicit specification repairs that are not grounded in the conversation with users. SCICONVBENCH establishes a foundation for evaluating the upstream conversational reasoning that a reliable computational science assistant requires. The code and data can be found at https://github.com/csml-rpi/SciConvBench.