ChatPaper.aiChatPaper

SCI-Verificateur : Vérificateur Scientifique avec Raisonnement

SCI-Verifier: Scientific Verifier with Thinking

September 29, 2025
papers.authors: Shenghe Zheng, Chenyu Huang, Fangchen Yu, Junchi Yao, Jingqi Ye, Tao Chen, Yun Luo, Ning Ding, LEI BAI, Ganqu Cui, Peng Ye
cs.AI

papers.abstract

Alors que les grands modèles de langage (LLMs) sont de plus en plus appliqués au raisonnement scientifique, la complexité des formats de réponse et la diversité des expressions équivalentes rendent la vérification des réponses une tâche cruciale mais difficile. Les études de vérification existantes dans les domaines scientifiques souffrent de deux limitations majeures : (a) l'absence de normes d'évaluation systématiques et une couverture disciplinaire insuffisante, ce qui entrave leur évaluation complète ; et (b) une forte dépendance à la conception fastidieuse de règles ou à l'ingénierie de prompts, ce qui réduit leur efficacité dans des scénarios de raisonnement complexe ou limite leur généralisation interdisciplinaire. Pour relever ces défis, nous proposons des solutions à la fois au niveau des données et des modèles. Du côté des données, nous construisons SCI-VerifyBench, un benchmark interdisciplinaire couvrant les mathématiques, la physique, la biologie, la chimie et les questions-réponses scientifiques générales. Ce benchmark est construit à partir de réponses réelles de LLMs et enrichi par des transformations d'équivalence spécifiques à chaque domaine, générant ainsi des données difficiles et réalistes. Des annotations basées sur des modèles et des experts garantissent à la fois la qualité et la diversité, permettant une évaluation rigoureuse des capacités de vérification. Du côté des modèles, nous mettons l'accent sur l'importance du raisonnement pour la vérification et introduisons SCI-Verifier, un vérificateur unifié renforcé par le raisonnement pour les domaines scientifiques. Grâce à un post-entraînement, SCI-Verifier démontre de solides capacités de raisonnement logique et de jugement d'équivalence tout en maintenant des sorties concises et stables. Ensemble, SCI-VerifyBench et SCI-Verifier fournissent un cadre méthodique pour la vérification scientifique, offrant à la fois une évaluation systématique et des voies pratiques pour améliorer la fiabilité et l'applicabilité des LLMs dans les domaines scientifiques.
English
As large language models (LLMs) are increasingly applied to scientific reasoning, the complexity of answer formats and the diversity of equivalent expressions make answer verification a critical yet challenging task. Existing verification studies in scientific domains suffer from two major limitations: (a) the absence of systematic evaluation standards and insufficient disciplinary coverage, which hinders their comprehensive assessment; and (b) heavy reliance on cumbersome rule design or prompt engineering, which reduces their effectiveness in complex reasoning scenarios or limits their cross-disciplinary generalization. To address these challenges, we propose solutions at both the data and model levels. On the data side, we construct SCI-VerifyBench, a cross-disciplinary benchmark covering mathematics, physics, biology, chemistry, and general scientific QA. The benchmark is built from real LLM responses and enhanced with domain-specific equivalence transformations that generate challenging and realistic data. Model-based and expert annotations ensure both quality and diversity, enabling rigorous evaluation of verification ability. On the model side, we emphasize the importance of reasoning for verification and introduce SCI-Verifier, a unified reasoning-augmented verifier for scientific domains. Through post-training, SCI-Verifier demonstrates strong logical reasoning and equivalence judgment capabilities while maintaining concise and stable outputs. Together, SCI-VerifyBench and SCI-Verifier provide a principled framework for scientific verification, offering both systematic evaluation and practical pathways to enhance the reliability and applicability of LLMs in scientific domains.
PDF61September 30, 2025