SCI-Verifier: Научный верификатор с функцией мышления
SCI-Verifier: Scientific Verifier with Thinking
September 29, 2025
Авторы: Shenghe Zheng, Chenyu Huang, Fangchen Yu, Junchi Yao, Jingqi Ye, Tao Chen, Yun Luo, Ning Ding, LEI BAI, Ganqu Cui, Peng Ye
cs.AI
Аннотация
По мере того как крупные языковые модели (LLM) всё чаще применяются для научных рассуждений, сложность форматов ответов и разнообразие эквивалентных выражений делают проверку ответов критически важной, но сложной задачей. Существующие исследования проверки в научных областях страдают от двух основных ограничений: (а) отсутствие систематических стандартов оценки и недостаточный охват дисциплин, что затрудняет их всестороннюю оценку; и (б) сильная зависимость от громоздкого проектирования правил или инженерии промптов, что снижает их эффективность в сложных сценариях рассуждений или ограничивает их междисциплинарную обобщаемость. Для решения этих проблем мы предлагаем решения как на уровне данных, так и на уровне моделей. На стороне данных мы создаём SCI-VerifyBench, междисциплинарный бенчмарк, охватывающий математику, физику, биологию, химию и общие научные вопросы. Бенчмарк построен на основе реальных ответов LLM и дополнен доменно-специфическими эквивалентными преобразованиями, которые генерируют сложные и реалистичные данные. Аннотации на основе моделей и экспертов обеспечивают как качество, так и разнообразие, позволяя проводить строгую оценку способности к проверке. На стороне моделей мы подчеркиваем важность рассуждений для проверки и представляем SCI-Verifier, унифицированный верификатор с усиленными возможностями рассуждений для научных областей. Благодаря пост-обучению SCI-Verifier демонстрирует сильные способности к логическому рассуждению и оценке эквивалентности, сохраняя при этом лаконичные и стабильные выходные данные. Вместе SCI-VerifyBench и SCI-Verifier предоставляют принципиальную основу для научной проверки, предлагая как систематическую оценку, так и практические пути для повышения надёжности и применимости LLM в научных областях.
English
As large language models (LLMs) are increasingly applied to scientific
reasoning, the complexity of answer formats and the diversity of equivalent
expressions make answer verification a critical yet challenging task. Existing
verification studies in scientific domains suffer from two major limitations:
(a) the absence of systematic evaluation standards and insufficient
disciplinary coverage, which hinders their comprehensive assessment; and (b)
heavy reliance on cumbersome rule design or prompt engineering, which reduces
their effectiveness in complex reasoning scenarios or limits their
cross-disciplinary generalization. To address these challenges, we propose
solutions at both the data and model levels. On the data side, we construct
SCI-VerifyBench, a cross-disciplinary benchmark covering mathematics, physics,
biology, chemistry, and general scientific QA. The benchmark is built from real
LLM responses and enhanced with domain-specific equivalence transformations
that generate challenging and realistic data. Model-based and expert
annotations ensure both quality and diversity, enabling rigorous evaluation of
verification ability. On the model side, we emphasize the importance of
reasoning for verification and introduce SCI-Verifier, a unified
reasoning-augmented verifier for scientific domains. Through post-training,
SCI-Verifier demonstrates strong logical reasoning and equivalence judgment
capabilities while maintaining concise and stable outputs. Together,
SCI-VerifyBench and SCI-Verifier provide a principled framework for scientific
verification, offering both systematic evaluation and practical pathways to
enhance the reliability and applicability of LLMs in scientific domains.