ChatPaper.aiChatPaper

Tijdelijke Consistentie voor Foutidentificatie in het Redeneerproces van LLM's

Temporal Consistency for LLM Reasoning Process Error Identification

March 18, 2025
Auteurs: Jiacheng Guo, Yue Wu, Jiahao Qiu, Kaixuan Huang, Xinzhe Juan, Ling Yang, Mengdi Wang
cs.AI

Samenvatting

Verificatie is cruciaal voor effectief wiskundig redeneren. We presenteren een nieuwe methode voor temporele consistentie waarbij verifiers hun oordelen iteratief verfijnen op basis van de vorige beoordeling. In tegenstelling tot eenmalige verificatie of multi-model debatbenaderingen, maakt onze methode gebruik van consistentie in een reeks zelfreflectie-acties om de nauwkeurigheid van de verificatie te verbeteren. Empirische evaluaties over diverse benchmarks voor het identificeren van fouten in wiskundige processen (Mathcheck, ProcessBench en PRM800K) laten consistente prestatieverbeteringen zien ten opzichte van baseline-methoden. Wanneer toegepast op de recente DeepSeek R1 gedistilleerde modellen, toont onze methode sterke prestaties, waardoor 7B/8B gedistilleerde modellen alle 70B/72B modellen en GPT-4o overtreffen op ProcessBench. Opmerkelijk is dat het gedistilleerde 14B-model met onze methode prestaties bereikt die vergelijkbaar zijn met Deepseek-R1. Onze codes zijn beschikbaar op https://github.com/jcguo123/Temporal-Consistency.
English
Verification is crucial for effective mathematical reasoning. We present a new temporal consistency method where verifiers iteratively refine their judgments based on the previous assessment. Unlike one-round verification or multi-model debate approaches, our method leverages consistency in a sequence of self-reflection actions to improve verification accuracy. Empirical evaluations across diverse mathematical process error identification benchmarks (Mathcheck, ProcessBench, and PRM800K) show consistent performance improvements over baseline methods. When applied to the recent DeepSeek R1 distilled models, our method demonstrates strong performance, enabling 7B/8B distilled models to outperform all 70B/72B models and GPT-4o on ProcessBench. Notably, the distilled 14B model with our method achieves performance comparable to Deepseek-R1. Our codes are available at https://github.com/jcguo123/Temporal-Consistency

Summary

AI-Generated Summary

PDF92March 19, 2025