ChatPaper.aiChatPaper

Consistência Temporal para Identificação de Erros no Processo de Raciocínio de LLMs

Temporal Consistency for LLM Reasoning Process Error Identification

March 18, 2025
Autores: Jiacheng Guo, Yue Wu, Jiahao Qiu, Kaixuan Huang, Xinzhe Juan, Ling Yang, Mengdi Wang
cs.AI

Resumo

A verificação é crucial para o raciocínio matemático eficaz. Apresentamos um novo método de consistência temporal em que os verificadores refinam iterativamente seus julgamentos com base na avaliação anterior. Diferente de abordagens de verificação em uma única rodada ou de debates com múltiplos modelos, nosso método aproveita a consistência em uma sequência de ações de autorreflexão para melhorar a precisão da verificação. Avaliações empíricas em diversos benchmarks de identificação de erros em processos matemáticos (Mathcheck, ProcessBench e PRM800K) mostram melhorias consistentes de desempenho em relação aos métodos baselines. Quando aplicado aos recentes modelos destilados DeepSeek R1, nosso método demonstra um desempenho robusto, permitindo que modelos destilados de 7B/8B superem todos os modelos de 70B/72B e o GPT-4o no ProcessBench. Notavelmente, o modelo destilado de 14B com nosso método alcança um desempenho comparável ao Deepseek-R1. Nossos códigos estão disponíveis em https://github.com/jcguo123/Temporal-Consistency.
English
Verification is crucial for effective mathematical reasoning. We present a new temporal consistency method where verifiers iteratively refine their judgments based on the previous assessment. Unlike one-round verification or multi-model debate approaches, our method leverages consistency in a sequence of self-reflection actions to improve verification accuracy. Empirical evaluations across diverse mathematical process error identification benchmarks (Mathcheck, ProcessBench, and PRM800K) show consistent performance improvements over baseline methods. When applied to the recent DeepSeek R1 distilled models, our method demonstrates strong performance, enabling 7B/8B distilled models to outperform all 70B/72B models and GPT-4o on ProcessBench. Notably, the distilled 14B model with our method achieves performance comparable to Deepseek-R1. Our codes are available at https://github.com/jcguo123/Temporal-Consistency

Summary

AI-Generated Summary

PDF92March 19, 2025