SCI-Verifier: Wetenschappelijke Verificator met Denkvermogen
SCI-Verifier: Scientific Verifier with Thinking
September 29, 2025
Auteurs: Shenghe Zheng, Chenyu Huang, Fangchen Yu, Junchi Yao, Jingqi Ye, Tao Chen, Yun Luo, Ning Ding, LEI BAI, Ganqu Cui, Peng Ye
cs.AI
Samenvatting
Naarmate grote taalmodellen (LLMs) steeds vaker worden toegepast op wetenschappelijk redeneren, maken de complexiteit van antwoordformaten en de diversiteit aan equivalente uitdrukkingen het verifiëren van antwoorden een cruciale maar uitdagende taak. Bestaande verificatiestudies in wetenschappelijke domeinen kampen met twee belangrijke beperkingen: (a) het ontbreken van systematische evaluatiestandaarden en onvoldoende disciplinaire dekking, wat een uitgebreide beoordeling belemmert; en (b) een sterke afhankelijkheid van omslachtige regels of prompt engineering, wat hun effectiviteit in complexe redeneerscenario's vermindert of hun interdisciplinaire generalisatie beperkt. Om deze uitdagingen aan te pakken, stellen we oplossingen voor op zowel het data- als het modelniveau. Aan de datazijde construeren we SCI-VerifyBench, een interdisciplinaire benchmark die wiskunde, natuurkunde, biologie, scheikunde en algemene wetenschappelijke vraag-antwoordparen omvat. De benchmark is opgebouwd uit echte LLM-reacties en verrijkt met domeinspecifieke equivalentietransformaties die uitdagende en realistische data genereren. Modelgebaseerde en expertannotaties zorgen voor zowel kwaliteit als diversiteit, wat een rigoureuze evaluatie van de verificatiecapaciteit mogelijk maakt. Aan de modelzijde benadrukken we het belang van redeneren voor verificatie en introduceren we SCI-Verifier, een uniforme, op redenering gebaseerde verifier voor wetenschappelijke domeinen. Door post-training toont SCI-Verifier sterke logische redeneer- en equivalentiebeoordelingscapaciteiten, terwijl het beknopte en stabiele uitvoer behoudt. Samen bieden SCI-VerifyBench en SCI-Verifier een principieel kader voor wetenschappelijke verificatie, met zowel systematische evaluatie als praktische wegen om de betrouwbaarheid en toepasbaarheid van LLMs in wetenschappelijke domeinen te verbeteren.
English
As large language models (LLMs) are increasingly applied to scientific
reasoning, the complexity of answer formats and the diversity of equivalent
expressions make answer verification a critical yet challenging task. Existing
verification studies in scientific domains suffer from two major limitations:
(a) the absence of systematic evaluation standards and insufficient
disciplinary coverage, which hinders their comprehensive assessment; and (b)
heavy reliance on cumbersome rule design or prompt engineering, which reduces
their effectiveness in complex reasoning scenarios or limits their
cross-disciplinary generalization. To address these challenges, we propose
solutions at both the data and model levels. On the data side, we construct
SCI-VerifyBench, a cross-disciplinary benchmark covering mathematics, physics,
biology, chemistry, and general scientific QA. The benchmark is built from real
LLM responses and enhanced with domain-specific equivalence transformations
that generate challenging and realistic data. Model-based and expert
annotations ensure both quality and diversity, enabling rigorous evaluation of
verification ability. On the model side, we emphasize the importance of
reasoning for verification and introduce SCI-Verifier, a unified
reasoning-augmented verifier for scientific domains. Through post-training,
SCI-Verifier demonstrates strong logical reasoning and equivalence judgment
capabilities while maintaining concise and stable outputs. Together,
SCI-VerifyBench and SCI-Verifier provide a principled framework for scientific
verification, offering both systematic evaluation and practical pathways to
enhance the reliability and applicability of LLMs in scientific domains.