SCICONVBENCH: Evaluación comparativa de LLMs en aclaración en múltiples turnos para la formulación de tareas en Ciencias Computacionales

Resumen

Los Modelos de Lenguaje de Gran Escala (LLMs) se implementan cada vez más como asistentes científicos de IA, y un creciente conjunto de puntos de referencia evalúa sus capacidades en recuperación de conocimiento, razonamiento, generación de código y uso de herramientas. Sin embargo, estas evaluaciones suelen asumir que el problema científico ya está bien planteado, mientras que la asistencia científica práctica a menudo comienza con una solicitud de usuario mal planteada que debe refinarse mediante diálogo antes de que cualquier cálculo, análisis o experimento pueda realizarse de manera confiable. Presentamos SCICONVBENCH, un punto de referencia para la aclaración en múltiples turnos en la formulación de tareas científicas en cuatro dominios de problemas de ciencia computacional: mecánica de fluidos, mecánica de sólidos, ciencia de materiales y ecuaciones diferenciales parciales (EDP). SCICONVBENCH se enfoca en dos capacidades complementarias: obtener información faltante (desambiguación) y detectar y corregir solicitudes erróneas que contengan información internamente contradictoria (resolución de inconsistencias). Nuestro punto de referencia combina una ontología de tareas estructurada con un marco de evaluación basado en rúbricas, permitiendo la medición sistemática del rendimiento de los LLM en tres dimensiones: comportamiento de aclaración, fundamentación conversacional y fidelidad de la especificación final. Los modelos frontera actuales se desempeñan relativamente bien en la resolución de inconsistencias, pero incluso el mejor modelo resuelve solo el 52.7% de los casos de desambiguación en mecánica de fluidos. Además, encontramos que los LLM frontera frecuentemente hacen suposiciones implícitas y realizan reparaciones implícitas de especificaciones que no están fundamentadas en la conversación con los usuarios. SCICONVBENCH establece una base para evaluar el razonamiento conversacional inicial que requiere un asistente de ciencia computacional confiable. El código y los datos se pueden encontrar en https://github.com/csml-rpi/SciConvBench.

English

Large Language Models (LLMs) are increasingly deployed as scientific AI as- sistants, and a growing body of benchmarks evaluates their capabilities across knowledge retrieval, reasoning, code generation, and tool use. These evaluations, however, typically assume the scientific problem is already well-posed, whereas practical scientific assistance often begins with an ill-posed user request that must be refined through dialogue before any computation, analysis, or experiment can be carried out reliably. We introduce SCICONVBENCH, a benchmark for multi- turn clarification in scientific task formulation across four computational science problem domains: fluid mechanics, solid mechanics, materials science, and par- tial differential equations (PDEs). SCICONVBENCH targets two complementary capabilities: eliciting missing information (disambiguation) and detecting and correcting erroneous requests containing internally contradictory information (in- consistency resolution). Our benchmark pairs a structured task ontology with a rubric-based evaluation framework, enabling systematic measurement of LLM per- formance across three dimensions: clarification behavior, conversational grounding, and final-specification fidelity. Current frontier models perform relatively well on inconsistency resolution, but even the best model resolves only 52.7% of the disambiguation cases in fluid mechanics. We further find that frontier LLMs fre- quently make silent assumptions and perform implicit specification repairs that are not grounded in the conversation with users. SCICONVBENCH establishes a foundation for evaluating the upstream conversational reasoning that a reliable computational science assistant requires. The code and data can be found at https://github.com/csml-rpi/SciConvBench.