LLM 추론 과정 오류 식별을 위한 시간적 일관성
Temporal Consistency for LLM Reasoning Process Error Identification
March 18, 2025
저자: Jiacheng Guo, Yue Wu, Jiahao Qiu, Kaixuan Huang, Xinzhe Juan, Ling Yang, Mengdi Wang
cs.AI
초록
검증은 효과적인 수학적 추론에 있어 핵심적인 요소입니다. 본 논문에서는 검증자가 이전 평가를 기반으로 반복적으로 판단을 개선하는 새로운 시간적 일관성 방법을 제안합니다. 단일 라운드 검증이나 다중 모델 토론 접근법과 달리, 우리의 방법은 일련의 자기 반성 작업에서의 일관성을 활용하여 검증 정확도를 향상시킵니다. 다양한 수학적 과정 오류 식별 벤치마크(Mathcheck, ProcessBench, PRM800K)에 대한 실험적 평가 결과, 제안 방법이 기존 방법 대비 일관된 성능 향상을 보였습니다. 최근의 DeepSeek R1 증류 모델에 적용한 결과, 우리의 방법은 7B/8B 증류 모델이 모든 70B/72B 모델과 GPT-4o를 ProcessBench에서 능가할 수 있도록 하는 강력한 성능을 보였습니다. 특히, 우리의 방법을 적용한 14B 증류 모델은 Deepseek-R1과 비슷한 성능을 달성했습니다. 코드는 https://github.com/jcguo123/Temporal-Consistency에서 확인할 수 있습니다.
English
Verification is crucial for effective mathematical reasoning. We present a
new temporal consistency method where verifiers iteratively refine their
judgments based on the previous assessment. Unlike one-round verification or
multi-model debate approaches, our method leverages consistency in a sequence
of self-reflection actions to improve verification accuracy. Empirical
evaluations across diverse mathematical process error identification benchmarks
(Mathcheck, ProcessBench, and PRM800K) show consistent performance improvements
over baseline methods. When applied to the recent DeepSeek R1 distilled models,
our method demonstrates strong performance, enabling 7B/8B distilled models to
outperform all 70B/72B models and GPT-4o on ProcessBench. Notably, the
distilled 14B model with our method achieves performance comparable to
Deepseek-R1. Our codes are available at
https://github.com/jcguo123/Temporal-ConsistencySummary
AI-Generated Summary