Временная согласованность для выявления ошибок в процессе рассуждения языковых моделей
Temporal Consistency for LLM Reasoning Process Error Identification
March 18, 2025
Авторы: Jiacheng Guo, Yue Wu, Jiahao Qiu, Kaixuan Huang, Xinzhe Juan, Ling Yang, Mengdi Wang
cs.AI
Аннотация
Проверка имеет решающее значение для эффективного математического рассуждения. Мы представляем новый метод временной согласованности, в котором верификаторы итеративно уточняют свои суждения на основе предыдущей оценки. В отличие от одноэтапной проверки или подходов с использованием многомодельных дебатов, наш метод использует согласованность в последовательности действий саморефлексии для повышения точности проверки. Эмпирические оценки на различных эталонных тестах для выявления ошибок в математических процессах (Mathcheck, ProcessBench и PRM800K) показывают устойчивое улучшение производительности по сравнению с базовыми методами. При применении к недавним дистиллированным моделям DeepSeek R1 наш метод демонстрирует высокую эффективность, позволяя дистиллированным моделям 7B/8B превзойти все модели 70B/72B и GPT-4o на ProcessBench. Примечательно, что дистиллированная модель 14B с нашим методом достигает производительности, сопоставимой с Deepseek-R1. Наш код доступен по адресу https://github.com/jcguo123/Temporal-Consistency.
English
Verification is crucial for effective mathematical reasoning. We present a
new temporal consistency method where verifiers iteratively refine their
judgments based on the previous assessment. Unlike one-round verification or
multi-model debate approaches, our method leverages consistency in a sequence
of self-reflection actions to improve verification accuracy. Empirical
evaluations across diverse mathematical process error identification benchmarks
(Mathcheck, ProcessBench, and PRM800K) show consistent performance improvements
over baseline methods. When applied to the recent DeepSeek R1 distilled models,
our method demonstrates strong performance, enabling 7B/8B distilled models to
outperform all 70B/72B models and GPT-4o on ProcessBench. Notably, the
distilled 14B model with our method achieves performance comparable to
Deepseek-R1. Our codes are available at
https://github.com/jcguo123/Temporal-ConsistencySummary
AI-Generated Summary