SCICONVBENCH: Avaliação comparativa de LLMs em esclarecimento em múltiplas rodadas para formulação de tarefas em Ciência Computacional

Resumo

Modelos de Linguagem de Grande Escala (LLMs) são cada vez mais implantados como assistentes científicos de IA, e um conjunto crescente de benchmarks avalia suas capacidades em recuperação de conhecimento, raciocínio, geração de código e uso de ferramentas. Essas avaliações, no entanto, tipicamente assumem que o problema científico já está bem definido, enquanto a assistência científica prática frequentemente começa com uma solicitação mal definida do usuário, que deve ser refinada por meio de diálogo antes que qualquer cálculo, análise ou experimento possa ser realizado de forma confiável. Apresentamos o SCICONVBENCH, um benchmark para esclarecimento em múltiplas interações na formulação de tarefas científicas em quatro domínios de problemas da ciência computacional: mecânica dos fluidos, mecânica dos sólidos, ciência dos materiais e equações diferenciais parciais (EDPs). O SCICONVBENCH tem como alvo duas capacidades complementares: extrair informações ausentes (desambiguação) e detectar e corrigir solicitações errôneas que contenham informações internamente contraditórias (resolução de inconsistência). Nosso benchmark combina uma ontologia de tarefas estruturada com um framework de avaliação baseado em rubricas, permitindo a medição sistemática do desempenho dos LLMs em três dimensões: comportamento de esclarecimento, ancoragem conversacional e fidelidade da especificação final. Os modelos de fronteira atuais têm um desempenho relativamente bom na resolução de inconsistências, mas mesmo o melhor modelo resolve apenas 52,7% dos casos de desambiguação em mecânica dos fluidos. Descobrimos ainda que os LLMs de fronteira frequentemente fazem suposições silenciosas e realizam reparos implícitos na especificação que não estão fundamentados na conversa com os usuários. O SCICONVBENCH estabelece uma base para avaliar o raciocínio conversacional upstream que um assistente confiável de ciência computacional exige. O código e os dados podem ser encontrados em https://github.com/csml-rpi/SciConvBench.

English

Large Language Models (LLMs) are increasingly deployed as scientific AI as- sistants, and a growing body of benchmarks evaluates their capabilities across knowledge retrieval, reasoning, code generation, and tool use. These evaluations, however, typically assume the scientific problem is already well-posed, whereas practical scientific assistance often begins with an ill-posed user request that must be refined through dialogue before any computation, analysis, or experiment can be carried out reliably. We introduce SCICONVBENCH, a benchmark for multi- turn clarification in scientific task formulation across four computational science problem domains: fluid mechanics, solid mechanics, materials science, and par- tial differential equations (PDEs). SCICONVBENCH targets two complementary capabilities: eliciting missing information (disambiguation) and detecting and correcting erroneous requests containing internally contradictory information (in- consistency resolution). Our benchmark pairs a structured task ontology with a rubric-based evaluation framework, enabling systematic measurement of LLM per- formance across three dimensions: clarification behavior, conversational grounding, and final-specification fidelity. Current frontier models perform relatively well on inconsistency resolution, but even the best model resolves only 52.7% of the disambiguation cases in fluid mechanics. We further find that frontier LLMs fre- quently make silent assumptions and perform implicit specification repairs that are not grounded in the conversation with users. SCICONVBENCH establishes a foundation for evaluating the upstream conversational reasoning that a reliable computational science assistant requires. The code and data can be found at https://github.com/csml-rpi/SciConvBench.