SCI-Verifier: Wissenschaftlicher Verifikator mit Denkfähigkeit
SCI-Verifier: Scientific Verifier with Thinking
September 29, 2025
papers.authors: Shenghe Zheng, Chenyu Huang, Fangchen Yu, Junchi Yao, Jingqi Ye, Tao Chen, Yun Luo, Ning Ding, LEI BAI, Ganqu Cui, Peng Ye
cs.AI
papers.abstract
Da große Sprachmodelle (LLMs) zunehmend für wissenschaftliches Denken eingesetzt werden, machen die Komplexität der Antwortformate und die Vielfalt äquivalenter Ausdrücke die Antwortüberprüfung zu einer kritischen, aber herausfordernden Aufgabe. Bestehende Überprüfungsstudien in wissenschaftlichen Domänen leiden unter zwei wesentlichen Einschränkungen: (a) das Fehlen systematischer Bewertungsstandards und unzureichende disziplinäre Abdeckung, was eine umfassende Beurteilung behindert; und (b) eine starke Abhängigkeit von aufwendigen Regeldesigns oder Prompt-Engineering, was ihre Wirksamkeit in komplexen Denkszenarien verringert oder ihre disziplinübergreifende Generalisierung einschränkt. Um diese Herausforderungen zu bewältigen, schlagen wir Lösungen auf der Daten- und Modellebene vor. Auf der Datenseite konstruieren wir SCI-VerifyBench, einen disziplinübergreifenden Benchmark, der Mathematik, Physik, Biologie, Chemie und allgemeine wissenschaftliche Fragen abdeckt. Der Benchmark basiert auf echten LLM-Antworten und wird durch domänenspezifische Äquivalenztransformationen erweitert, die herausfordernde und realistische Daten generieren. Modellbasierte und Experten-Annotationen gewährleisten sowohl Qualität als auch Vielfalt und ermöglichen eine rigorose Bewertung der Überprüfungsfähigkeit. Auf der Modellebene betonen wir die Bedeutung des Denkens für die Überprüfung und führen SCI-Verifier ein, einen einheitlichen, denkverstärkten Verifizierer für wissenschaftliche Domänen. Durch Nachschulung zeigt SCI-Verifier starke logische Denk- und Äquivalenzurteilsfähigkeiten bei gleichzeitiger Beibehaltung prägnanter und stabiler Ausgaben. Zusammen bieten SCI-VerifyBench und SCI-Verifier einen prinzipiellen Rahmen für die wissenschaftliche Überprüfung, der sowohl systematische Bewertung als auch praktische Wege zur Verbesserung der Zuverlässigkeit und Anwendbarkeit von LLMs in wissenschaftlichen Domänen bietet.
English
As large language models (LLMs) are increasingly applied to scientific
reasoning, the complexity of answer formats and the diversity of equivalent
expressions make answer verification a critical yet challenging task. Existing
verification studies in scientific domains suffer from two major limitations:
(a) the absence of systematic evaluation standards and insufficient
disciplinary coverage, which hinders their comprehensive assessment; and (b)
heavy reliance on cumbersome rule design or prompt engineering, which reduces
their effectiveness in complex reasoning scenarios or limits their
cross-disciplinary generalization. To address these challenges, we propose
solutions at both the data and model levels. On the data side, we construct
SCI-VerifyBench, a cross-disciplinary benchmark covering mathematics, physics,
biology, chemistry, and general scientific QA. The benchmark is built from real
LLM responses and enhanced with domain-specific equivalence transformations
that generate challenging and realistic data. Model-based and expert
annotations ensure both quality and diversity, enabling rigorous evaluation of
verification ability. On the model side, we emphasize the importance of
reasoning for verification and introduce SCI-Verifier, a unified
reasoning-augmented verifier for scientific domains. Through post-training,
SCI-Verifier demonstrates strong logical reasoning and equivalence judgment
capabilities while maintaining concise and stable outputs. Together,
SCI-VerifyBench and SCI-Verifier provide a principled framework for scientific
verification, offering both systematic evaluation and practical pathways to
enhance the reliability and applicability of LLMs in scientific domains.