ChatPaper.aiChatPaper

Cohérence temporelle pour l'identification des erreurs dans le processus de raisonnement des LLM

Temporal Consistency for LLM Reasoning Process Error Identification

March 18, 2025
Auteurs: Jiacheng Guo, Yue Wu, Jiahao Qiu, Kaixuan Huang, Xinzhe Juan, Ling Yang, Mengdi Wang
cs.AI

Résumé

La vérification est cruciale pour un raisonnement mathématique efficace. Nous présentons une nouvelle méthode de cohérence temporelle où les vérificateurs affinent itérativement leurs jugements en se basant sur l'évaluation précédente. Contrairement aux approches de vérification en une seule étape ou de débats multi-modèles, notre méthode exploite la cohérence dans une séquence d'actions d'auto-réflexion pour améliorer la précision de la vérification. Les évaluations empiriques sur divers benchmarks d'identification d'erreurs dans les processus mathématiques (Mathcheck, ProcessBench et PRM800K) montrent des améliorations constantes par rapport aux méthodes de référence. Lorsqu'elle est appliquée aux modèles distillés récents DeepSeek R1, notre méthode démontre des performances solides, permettant aux modèles distillés de 7B/8B de surpasser tous les modèles de 70B/72B ainsi que GPT-4o sur ProcessBench. Notamment, le modèle distillée de 14B avec notre méthode atteint des performances comparables à Deepseek-R1. Nos codes sont disponibles à l'adresse suivante : https://github.com/jcguo123/Temporal-Consistency
English
Verification is crucial for effective mathematical reasoning. We present a new temporal consistency method where verifiers iteratively refine their judgments based on the previous assessment. Unlike one-round verification or multi-model debate approaches, our method leverages consistency in a sequence of self-reflection actions to improve verification accuracy. Empirical evaluations across diverse mathematical process error identification benchmarks (Mathcheck, ProcessBench, and PRM800K) show consistent performance improvements over baseline methods. When applied to the recent DeepSeek R1 distilled models, our method demonstrates strong performance, enabling 7B/8B distilled models to outperform all 70B/72B models and GPT-4o on ProcessBench. Notably, the distilled 14B model with our method achieves performance comparable to Deepseek-R1. Our codes are available at https://github.com/jcguo123/Temporal-Consistency

Summary

AI-Generated Summary

PDF92March 19, 2025