ChatPaper.aiChatPaper

VeriCoT: 論理的一貫性チェックによる神経記号的思考連鎖の検証

VeriCoT: Neuro-symbolic Chain-of-Thought Validation via Logical Consistency Checks

November 6, 2025
著者: Yu Feng, Nathaniel Weir, Kaj Bostrom, Sam Bayless, Darion Cassel, Sapana Chaudhary, Benjamin Kiesl-Reiter, Huzefa Rangwala
cs.AI

要旨

大規模言語モデル(LLM)は思考の連鎖(Chain-of-Thought: CoT)による多段階推論が可能ですが、自らの論理を確実に検証することはできません。正しい答えに到達した場合でも、根底にある推論に欠陥がある可能性があり、高リスクのシナリオにおける信頼性を損なう要因となります。この問題を緩和するため、我々はCoT推論から形式的論理構造を抽出して検証する神経シンボル型手法「VeriCoT」を提案します。VeriCoTは各CoT推論ステップを一階述語論理で形式化し、ソース文脈・常識的知識・先行推論ステップに基盤を置く前提を特定します。シンボリック表現により自動ソルバーによる論理的正しさの検証が可能となり、自然言語の前提により人間やシステムが根拠不足または誤った推論ステップを特定できます。ProofWriter・LegalBench・BioASQデータセットでの実験により、VeriCoTが欠陥ある推論を効果的に検出し、最終回答の正しさを強力に予測できることが示されました。さらにVeriCoTの検証信号を以下に活用します:(1) 推論時自己評価、(2) VeriCoTで蒸留したデータセットによる教師ありファインチューニング(SFT)、(3) 検証ベースのペアワイズ報酬を用いた直接選好最適化(DPO)による選好ファインチューニング(PFT)。これにより推論の正当性と精度がさらに向上します。
English
LLMs can perform multi-step reasoning through Chain-of-Thought (CoT), but they cannot reliably verify their own logic. Even when they reach correct answers, the underlying reasoning may be flawed, undermining trust in high-stakes scenarios. To mitigate this issue, we introduce VeriCoT, a neuro-symbolic method that extracts and verifies formal logical arguments from CoT reasoning. VeriCoT formalizes each CoT reasoning step into first-order logic and identifies premises that ground the argument in source context, commonsense knowledge, or prior reasoning steps. The symbolic representation enables automated solvers to verify logical validity while the NL premises allow humans and systems to identify ungrounded or fallacious reasoning steps. Experiments on the ProofWriter, LegalBench, and BioASQ datasets show VeriCoT effectively identifies flawed reasoning, and serves as a strong predictor of final answer correctness. We also leverage VeriCoT's verification signal for (1) inference-time self-reflection, (2) supervised fine-tuning (SFT) on VeriCoT-distilled datasets and (3) preference fine-tuning (PFT) with direct preference optimization (DPO) using verification-based pairwise rewards, further improving reasoning validity and accuracy.
PDF342December 2, 2025