SCI-Verifier: Научный верификатор с функцией мышления

Аннотация

По мере того как крупные языковые модели (LLM) всё чаще применяются для научных рассуждений, сложность форматов ответов и разнообразие эквивалентных выражений делают проверку ответов критически важной, но сложной задачей. Существующие исследования проверки в научных областях страдают от двух основных ограничений: (а) отсутствие систематических стандартов оценки и недостаточный охват дисциплин, что затрудняет их всестороннюю оценку; и (б) сильная зависимость от громоздкого проектирования правил или инженерии промптов, что снижает их эффективность в сложных сценариях рассуждений или ограничивает их междисциплинарную обобщаемость. Для решения этих проблем мы предлагаем решения как на уровне данных, так и на уровне моделей. На стороне данных мы создаём SCI-VerifyBench, междисциплинарный бенчмарк, охватывающий математику, физику, биологию, химию и общие научные вопросы. Бенчмарк построен на основе реальных ответов LLM и дополнен доменно-специфическими эквивалентными преобразованиями, которые генерируют сложные и реалистичные данные. Аннотации на основе моделей и экспертов обеспечивают как качество, так и разнообразие, позволяя проводить строгую оценку способности к проверке. На стороне моделей мы подчеркиваем важность рассуждений для проверки и представляем SCI-Verifier, унифицированный верификатор с усиленными возможностями рассуждений для научных областей. Благодаря пост-обучению SCI-Verifier демонстрирует сильные способности к логическому рассуждению и оценке эквивалентности, сохраняя при этом лаконичные и стабильные выходные данные. Вместе SCI-VerifyBench и SCI-Verifier предоставляют принципиальную основу для научной проверки, предлагая как систематическую оценку, так и практические пути для повышения надёжности и применимости LLM в научных областях.

English

As large language models (LLMs) are increasingly applied to scientific reasoning, the complexity of answer formats and the diversity of equivalent expressions make answer verification a critical yet challenging task. Existing verification studies in scientific domains suffer from two major limitations: (a) the absence of systematic evaluation standards and insufficient disciplinary coverage, which hinders their comprehensive assessment; and (b) heavy reliance on cumbersome rule design or prompt engineering, which reduces their effectiveness in complex reasoning scenarios or limits their cross-disciplinary generalization. To address these challenges, we propose solutions at both the data and model levels. On the data side, we construct SCI-VerifyBench, a cross-disciplinary benchmark covering mathematics, physics, biology, chemistry, and general scientific QA. The benchmark is built from real LLM responses and enhanced with domain-specific equivalence transformations that generate challenging and realistic data. Model-based and expert annotations ensure both quality and diversity, enabling rigorous evaluation of verification ability. On the model side, we emphasize the importance of reasoning for verification and introduce SCI-Verifier, a unified reasoning-augmented verifier for scientific domains. Through post-training, SCI-Verifier demonstrates strong logical reasoning and equivalence judgment capabilities while maintaining concise and stable outputs. Together, SCI-VerifyBench and SCI-Verifier provide a principled framework for scientific verification, offering both systematic evaluation and practical pathways to enhance the reliability and applicability of LLMs in scientific domains.

SCI-Verifier: Научный верификатор с функцией мышления

SCI-Verifier: Scientific Verifier with Thinking

Аннотация

Support