VeriCoT: 논리적 일관성 검사를 통한 신경-기호적 사고 연속성 검증
VeriCoT: Neuro-symbolic Chain-of-Thought Validation via Logical Consistency Checks
November 6, 2025
저자: Yu Feng, Nathaniel Weir, Kaj Bostrom, Sam Bayless, Darion Cassel, Sapana Chaudhary, Benjamin Kiesl-Reiter, Huzefa Rangwala
cs.AI
초록
LLM은 사고 연쇄(Chain-of-Thought, CoT)를 통해 다단계 추론을 수행할 수 있지만, 자신의 논리를 신뢰성 있게 검증하지는 못합니다. 올바른 답변에 도달하는 경우에도 근본적인 추론 과정에 결함이 있을 수 있어, 높은 위험을 수반하는 시나리오에서 신뢰성을 저해합니다. 이러한 문제를 완화하기 위해 본 연구에서는 CoT 추론에서 형식적 논리 논증을 추출하고 검증하는 신경-기호적(neuro-symbolic) 방법인 VeriCoT를 소개합니다. VeriCoT는 각 CoT 추론 단계를 1차 술어 논리로 형식화하고, 논증을 원천 문맥, 상식 지식 또는 선행 추론 단계에 기반하게 하는 전제를 식별합니다. 이 기호적 표현은 자동 솔버가 논리적 타당성을 검증할 수 있게 하며, 자연어 전제는 인간과 시스템이 근거가 부족하거나 오류가 있는 추론 단계를 식별할 수 있도록 합니다. ProofWriter, LegalBench, BioASQ 데이터셋에 대한 실험 결과, VeriCoT는 결함이 있는 추론을 효과적으로 식별하며 최종 답변의 정확성을 강력하게 예측하는 것으로 나타났습니다. 또한 VeriCoT의 검증 신호를 (1) 추론 시점 자기 성찰, (2) VeriCoT로 정제된 데이터셋에 대한 지도 미세 조정(SFT), (3) 검증 기반 쌍별 보상을 이용한 직접 선호 최적화(DPO)를 통한 선호 미세 조정(PFT)에 활용하여 추론의 타당성과 정확성을 추가로 개선했습니다.
English
LLMs can perform multi-step reasoning through Chain-of-Thought (CoT), but
they cannot reliably verify their own logic. Even when they reach correct
answers, the underlying reasoning may be flawed, undermining trust in
high-stakes scenarios. To mitigate this issue, we introduce VeriCoT, a
neuro-symbolic method that extracts and verifies formal logical arguments from
CoT reasoning. VeriCoT formalizes each CoT reasoning step into first-order
logic and identifies premises that ground the argument in source context,
commonsense knowledge, or prior reasoning steps. The symbolic representation
enables automated solvers to verify logical validity while the NL premises
allow humans and systems to identify ungrounded or fallacious reasoning steps.
Experiments on the ProofWriter, LegalBench, and BioASQ datasets show VeriCoT
effectively identifies flawed reasoning, and serves as a strong predictor of
final answer correctness. We also leverage VeriCoT's verification signal for
(1) inference-time self-reflection, (2) supervised fine-tuning (SFT) on
VeriCoT-distilled datasets and (3) preference fine-tuning (PFT) with direct
preference optimization (DPO) using verification-based pairwise rewards,
further improving reasoning validity and accuracy.