SCI-Verificador: Verificador Científico con Razonamiento
SCI-Verifier: Scientific Verifier with Thinking
September 29, 2025
Autores: Shenghe Zheng, Chenyu Huang, Fangchen Yu, Junchi Yao, Jingqi Ye, Tao Chen, Yun Luo, Ning Ding, LEI BAI, Ganqu Cui, Peng Ye
cs.AI
Resumen
A medida que los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) se aplican cada vez más al razonamiento científico, la complejidad de los formatos de respuesta y la diversidad de expresiones equivalentes convierten la verificación de respuestas en una tarea crítica pero desafiante. Los estudios de verificación existentes en dominios científicos presentan dos limitaciones principales: (a) la ausencia de estándares de evaluación sistemáticos y una cobertura disciplinaria insuficiente, lo que dificulta su evaluación integral; y (b) una fuerte dependencia del diseño de reglas engorrosas o de la ingeniería de prompts, lo que reduce su efectividad en escenarios de razonamiento complejo o limita su generalización interdisciplinaria. Para abordar estos desafíos, proponemos soluciones tanto a nivel de datos como de modelos. En el lado de los datos, construimos SCI-VerifyBench, un benchmark interdisciplinario que cubre matemáticas, física, biología, química y preguntas y respuestas científicas generales. Este benchmark se construye a partir de respuestas reales de LLMs y se enriquece con transformaciones de equivalencia específicas del dominio que generan datos desafiantes y realistas. Anotaciones basadas en modelos y expertos garantizan tanto la calidad como la diversidad, permitiendo una evaluación rigurosa de la capacidad de verificación. En el lado del modelo, enfatizamos la importancia del razonamiento para la verificación e introducimos SCI-Verifier, un verificador unificado aumentado con razonamiento para dominios científicos. A través del post-entrenamiento, SCI-Verifier demuestra fuertes capacidades de razonamiento lógico y juicio de equivalencia, manteniendo salidas concisas y estables. Juntos, SCI-VerifyBench y SCI-Verifier proporcionan un marco de trabajo fundamentado para la verificación científica, ofreciendo tanto una evaluación sistemática como vías prácticas para mejorar la confiabilidad y aplicabilidad de los LLMs en dominios científicos.
English
As large language models (LLMs) are increasingly applied to scientific
reasoning, the complexity of answer formats and the diversity of equivalent
expressions make answer verification a critical yet challenging task. Existing
verification studies in scientific domains suffer from two major limitations:
(a) the absence of systematic evaluation standards and insufficient
disciplinary coverage, which hinders their comprehensive assessment; and (b)
heavy reliance on cumbersome rule design or prompt engineering, which reduces
their effectiveness in complex reasoning scenarios or limits their
cross-disciplinary generalization. To address these challenges, we propose
solutions at both the data and model levels. On the data side, we construct
SCI-VerifyBench, a cross-disciplinary benchmark covering mathematics, physics,
biology, chemistry, and general scientific QA. The benchmark is built from real
LLM responses and enhanced with domain-specific equivalence transformations
that generate challenging and realistic data. Model-based and expert
annotations ensure both quality and diversity, enabling rigorous evaluation of
verification ability. On the model side, we emphasize the importance of
reasoning for verification and introduce SCI-Verifier, a unified
reasoning-augmented verifier for scientific domains. Through post-training,
SCI-Verifier demonstrates strong logical reasoning and equivalence judgment
capabilities while maintaining concise and stable outputs. Together,
SCI-VerifyBench and SCI-Verifier provide a principled framework for scientific
verification, offering both systematic evaluation and practical pathways to
enhance the reliability and applicability of LLMs in scientific domains.