ChatPaper.aiChatPaper

SCI-Verifier: Verificatore Scientifico con Ragionamento

SCI-Verifier: Scientific Verifier with Thinking

September 29, 2025
Autori: Shenghe Zheng, Chenyu Huang, Fangchen Yu, Junchi Yao, Jingqi Ye, Tao Chen, Yun Luo, Ning Ding, LEI BAI, Ganqu Cui, Peng Ye
cs.AI

Abstract

Man mano che i modelli linguistici di grandi dimensioni (LLM) vengono sempre più applicati al ragionamento scientifico, la complessità dei formati delle risposte e la diversità delle espressioni equivalenti rendono la verifica delle risposte un compito cruciale ma impegnativo. Gli studi esistenti sulla verifica nei domini scientifici presentano due principali limitazioni: (a) l'assenza di standard di valutazione sistematici e una copertura disciplinare insufficiente, che ostacolano una valutazione completa; e (b) una forte dipendenza da progettazioni di regole complesse o ingegneria dei prompt, che riduce la loro efficacia in scenari di ragionamento complesso o limita la loro generalizzazione interdisciplinare. Per affrontare queste sfide, proponiamo soluzioni sia a livello di dati che di modello. Sul lato dei dati, costruiamo SCI-VerifyBench, un benchmark interdisciplinare che copre matematica, fisica, biologia, chimica e domande scientifiche generali. Il benchmark è costruito a partire da risposte reali di LLM e arricchito con trasformazioni di equivalenza specifiche per dominio che generano dati impegnativi e realistici. Annotazioni basate su modelli e esperti garantiscono sia la qualità che la diversità, consentendo una valutazione rigorosa delle capacità di verifica. Sul lato del modello, sottolineiamo l'importanza del ragionamento per la verifica e introduciamo SCI-Verifier, un verificatore unificato potenziato dal ragionamento per i domini scientifici. Attraverso il post-addestramento, SCI-Verifier dimostra forti capacità di ragionamento logico e giudizio di equivalenza, mantenendo al contempo output concisi e stabili. Insieme, SCI-VerifyBench e SCI-Verifier forniscono un framework strutturato per la verifica scientifica, offrendo sia una valutazione sistematica che percorsi pratici per migliorare l'affidabilità e l'applicabilità degli LLM nei domini scientifici.
English
As large language models (LLMs) are increasingly applied to scientific reasoning, the complexity of answer formats and the diversity of equivalent expressions make answer verification a critical yet challenging task. Existing verification studies in scientific domains suffer from two major limitations: (a) the absence of systematic evaluation standards and insufficient disciplinary coverage, which hinders their comprehensive assessment; and (b) heavy reliance on cumbersome rule design or prompt engineering, which reduces their effectiveness in complex reasoning scenarios or limits their cross-disciplinary generalization. To address these challenges, we propose solutions at both the data and model levels. On the data side, we construct SCI-VerifyBench, a cross-disciplinary benchmark covering mathematics, physics, biology, chemistry, and general scientific QA. The benchmark is built from real LLM responses and enhanced with domain-specific equivalence transformations that generate challenging and realistic data. Model-based and expert annotations ensure both quality and diversity, enabling rigorous evaluation of verification ability. On the model side, we emphasize the importance of reasoning for verification and introduce SCI-Verifier, a unified reasoning-augmented verifier for scientific domains. Through post-training, SCI-Verifier demonstrates strong logical reasoning and equivalence judgment capabilities while maintaining concise and stable outputs. Together, SCI-VerifyBench and SCI-Verifier provide a principled framework for scientific verification, offering both systematic evaluation and practical pathways to enhance the reliability and applicability of LLMs in scientific domains.
PDF71September 30, 2025