SCI-Verifier: Verificador Científico com Raciocínio
SCI-Verifier: Scientific Verifier with Thinking
September 29, 2025
Autores: Shenghe Zheng, Chenyu Huang, Fangchen Yu, Junchi Yao, Jingqi Ye, Tao Chen, Yun Luo, Ning Ding, LEI BAI, Ganqu Cui, Peng Ye
cs.AI
Resumo
À medida que os modelos de linguagem de grande escala (LLMs) são cada vez mais aplicados ao raciocínio científico, a complexidade dos formatos de resposta e a diversidade de expressões equivalentes tornam a verificação de respostas uma tarefa crítica, porém desafiadora. Os estudos de verificação existentes em domínios científicos sofrem de duas grandes limitações: (a) a ausência de padrões sistemáticos de avaliação e cobertura disciplinar insuficiente, o que dificulta sua avaliação abrangente; e (b) a forte dependência de projetos de regras complexas ou engenharia de prompts, o que reduz sua eficácia em cenários de raciocínio complexo ou limita sua generalização interdisciplinar. Para enfrentar esses desafios, propomos soluções tanto no nível dos dados quanto no nível do modelo. No lado dos dados, construímos o SCI-VerifyBench, um benchmark interdisciplinar que abrange matemática, física, biologia, química e perguntas e respostas científicas gerais. O benchmark é construído a partir de respostas reais de LLMs e aprimorado com transformações de equivalência específicas do domínio, gerando dados desafiadores e realistas. Anotações baseadas em modelos e especialistas garantem qualidade e diversidade, permitindo uma avaliação rigorosa da capacidade de verificação. No lado do modelo, enfatizamos a importância do raciocínio para verificação e introduzimos o SCI-Verifier, um verificador unificado e aprimorado por raciocínio para domínios científicos. Por meio de pós-treinamento, o SCI-Verifier demonstra fortes capacidades de raciocínio lógico e julgamento de equivalência, mantendo saídas concisas e estáveis. Juntos, o SCI-VerifyBench e o SCI-Verifier fornecem uma estrutura fundamentada para verificação científica, oferecendo tanto avaliação sistemática quanto caminhos práticos para aprimorar a confiabilidade e a aplicabilidade dos LLMs em domínios científicos.
English
As large language models (LLMs) are increasingly applied to scientific
reasoning, the complexity of answer formats and the diversity of equivalent
expressions make answer verification a critical yet challenging task. Existing
verification studies in scientific domains suffer from two major limitations:
(a) the absence of systematic evaluation standards and insufficient
disciplinary coverage, which hinders their comprehensive assessment; and (b)
heavy reliance on cumbersome rule design or prompt engineering, which reduces
their effectiveness in complex reasoning scenarios or limits their
cross-disciplinary generalization. To address these challenges, we propose
solutions at both the data and model levels. On the data side, we construct
SCI-VerifyBench, a cross-disciplinary benchmark covering mathematics, physics,
biology, chemistry, and general scientific QA. The benchmark is built from real
LLM responses and enhanced with domain-specific equivalence transformations
that generate challenging and realistic data. Model-based and expert
annotations ensure both quality and diversity, enabling rigorous evaluation of
verification ability. On the model side, we emphasize the importance of
reasoning for verification and introduce SCI-Verifier, a unified
reasoning-augmented verifier for scientific domains. Through post-training,
SCI-Verifier demonstrates strong logical reasoning and equivalence judgment
capabilities while maintaining concise and stable outputs. Together,
SCI-VerifyBench and SCI-Verifier provide a principled framework for scientific
verification, offering both systematic evaluation and practical pathways to
enhance the reliability and applicability of LLMs in scientific domains.