I Modelli Linguistici di Grandi Dimensioni Possono Rilevare Errori nei Ragionamenti a Lunga Catena di Pensiero?
Can Large Language Models Detect Errors in Long Chain-of-Thought Reasoning?
February 26, 2025
Autori: Yancheng He, Shilong Li, Jiaheng Liu, Weixun Wang, Xingyuan Bu, Ge Zhang, Zhongyuan Peng, Zhaoxiang Zhang, Wenbo Su, Bo Zheng
cs.AI
Abstract
Recentemente, i modelli di tipo o1 hanno attirato una significativa attenzione, in quanto questi modelli producono lunghe catene di ragionamento (Chain-of-Thought, CoT) per migliorare le capacità di ragionamento dei modelli di linguaggio di grandi dimensioni (Large Language Models, LLMs) esistenti. In questo articolo, per comprendere le qualità di queste lunghe CoT e misurare le capacità di critica degli LLM esistenti su queste lunghe CoT, introduciamo il DeltaBench, che include le lunghe CoT generate da diversi modelli di tipo o1 (ad esempio, QwQ, DeepSeek-R1) per diverse attività di ragionamento (ad esempio, Matematica, Codice, Ragionamento Generale), con l'obiettivo di misurare la capacità di rilevare errori nel ragionamento CoT lungo. Basandoci su DeltaBench, eseguiamo prima un'analisi granulare delle lunghe CoT generate per scoprire l'efficacia e l'efficienza dei diversi modelli di tipo o1. Successivamente, conduciamo valutazioni estensive dei modelli di ricompensa del processo (Process Reward Models, PRMs) e dei modelli critici esistenti per rilevare gli errori di ciascun processo annotato, con l'obiettivo di indagare i limiti e le restrizioni degli attuali PRM e modelli critici. Infine, speriamo che DeltaBench possa guidare gli sviluppatori a comprendere meglio le capacità di ragionamento CoT lungo dei loro modelli.
English
Recently, o1-like models have drawn significant attention, where these models
produce the long Chain-of-Thought (CoT) reasoning steps to improve the
reasoning abilities of existing Large Language Models (LLMs). In this paper, to
understand the qualities of these long CoTs and measure the critique abilities
of existing LLMs on these long CoTs, we introduce the DeltaBench, including the
generated long CoTs from different o1-like models (e.g., QwQ, DeepSeek-R1) for
different reasoning tasks (e.g., Math, Code, General Reasoning), to measure the
ability to detect errors in long CoT reasoning. Based on DeltaBench, we first
perform fine-grained analysis of the generated long CoTs to discover the
effectiveness and efficiency of different o1-like models. Then, we conduct
extensive evaluations of existing process reward models (PRMs) and critic
models to detect the errors of each annotated process, which aims to
investigate the boundaries and limitations of existing PRMs and critic models.
Finally, we hope that DeltaBench could guide developers to better understand
the long CoT reasoning abilities of their models.Summary
AI-Generated Summary