ChatPaper.aiChatPaper

Coerenza Temporale per l'Identificazione degli Errori nel Processo di Ragionamento dei Modelli Linguistici di Grande Dimensione

Temporal Consistency for LLM Reasoning Process Error Identification

March 18, 2025
Autori: Jiacheng Guo, Yue Wu, Jiahao Qiu, Kaixuan Huang, Xinzhe Juan, Ling Yang, Mengdi Wang
cs.AI

Abstract

La verifica è cruciale per un ragionamento matematico efficace. Presentiamo un nuovo metodo di consistenza temporale in cui i verificatori affinano iterativamente i loro giudizi basandosi sulla valutazione precedente. A differenza degli approcci di verifica in un solo round o del dibattito multi-modello, il nostro metodo sfrutta la consistenza in una sequenza di azioni di auto-riflessione per migliorare l'accuratezza della verifica. Le valutazioni empiriche su vari benchmark per l'identificazione degli errori nei processi matematici (Mathcheck, ProcessBench e PRM800K) mostrano miglioramenti consistenti rispetto ai metodi di base. Quando applicato ai recenti modelli distillati DeepSeek R1, il nostro metodo dimostra prestazioni solide, consentendo ai modelli distillati 7B/8B di superare tutti i modelli 70B/72B e GPT-4o su ProcessBench. In particolare, il modello distillato 14B con il nostro metodo raggiunge prestazioni paragonabili a Deepseek-R1. I nostri codici sono disponibili su https://github.com/jcguo123/Temporal-Consistency.
English
Verification is crucial for effective mathematical reasoning. We present a new temporal consistency method where verifiers iteratively refine their judgments based on the previous assessment. Unlike one-round verification or multi-model debate approaches, our method leverages consistency in a sequence of self-reflection actions to improve verification accuracy. Empirical evaluations across diverse mathematical process error identification benchmarks (Mathcheck, ProcessBench, and PRM800K) show consistent performance improvements over baseline methods. When applied to the recent DeepSeek R1 distilled models, our method demonstrates strong performance, enabling 7B/8B distilled models to outperform all 70B/72B models and GPT-4o on ProcessBench. Notably, the distilled 14B model with our method achieves performance comparable to Deepseek-R1. Our codes are available at https://github.com/jcguo123/Temporal-Consistency

Summary

AI-Generated Summary

PDF92March 19, 2025