大規模言語モデルの推論プロセスにおけるエラー識別のための時間的一貫性
Temporal Consistency for LLM Reasoning Process Error Identification
March 18, 2025
著者: Jiacheng Guo, Yue Wu, Jiahao Qiu, Kaixuan Huang, Xinzhe Juan, Ling Yang, Mengdi Wang
cs.AI
要旨
検証は、効果的な数学的推論において極めて重要です。本論文では、検証者が前回の評価に基づいて判断を反復的に洗練させる新しい時間的一貫性手法を提案します。1回限りの検証や複数モデルによる議論アプローチとは異なり、本手法は一連の自己省察行動における一貫性を活用することで検証精度を向上させます。多様な数学的プロセス誤り識別ベンチマーク(Mathcheck、ProcessBench、PRM800K)での実証評価では、ベースライン手法を一貫して上回る性能向上を示しています。最近のDeepSeek R1蒸留モデルに本手法を適用した場合、7B/8B蒸留モデルが全ての70B/72BモデルおよびGPT-4oをProcessBenchで上回る強力な性能を発揮しました。特に、本手法を適用した14B蒸留モデルはDeepseek-R1に匹敵する性能を達成しています。コードはhttps://github.com/jcguo123/Temporal-Consistencyで公開しています。
English
Verification is crucial for effective mathematical reasoning. We present a
new temporal consistency method where verifiers iteratively refine their
judgments based on the previous assessment. Unlike one-round verification or
multi-model debate approaches, our method leverages consistency in a sequence
of self-reflection actions to improve verification accuracy. Empirical
evaluations across diverse mathematical process error identification benchmarks
(Mathcheck, ProcessBench, and PRM800K) show consistent performance improvements
over baseline methods. When applied to the recent DeepSeek R1 distilled models,
our method demonstrates strong performance, enabling 7B/8B distilled models to
outperform all 70B/72B models and GPT-4o on ProcessBench. Notably, the
distilled 14B model with our method achieves performance comparable to
Deepseek-R1. Our codes are available at
https://github.com/jcguo123/Temporal-Consistency