Riesaminare il ridimensionamento al momento del test dei modelli di tipo o1: Possiedono veramente capacità di ridimensionamento durante il test?
Revisiting the Test-Time Scaling of o1-like Models: Do they Truly Possess Test-Time Scaling Capabilities?
February 17, 2025
Autori: Zhiyuan Zeng, Qinyuan Cheng, Zhangyue Yin, Yunhua Zhou, Xipeng Qiu
cs.AI
Abstract
L'avvento del ridimensionamento al momento del test nei grandi modelli linguistici (LLM), esemplificato dalla serie o1 di OpenAI, ha migliorato le capacità di ragionamento attraverso la scalabilità dell'allocazione delle risorse computazionali durante l'inferenza. Sebbene successori come QwQ, Deepseek-R1 (R1) e LIMO replichino questi progressi, la questione se questi modelli possiedano effettivamente capacità di ridimensionamento al momento del test rimane poco esplorata. Questo studio ha rilevato che catene di pensiero (CoT) più lunghe in questi modelli simili a o1 non migliorano costantemente l'accuratezza; infatti, le soluzioni corrette sono spesso più brevi di quelle errate per le stesse domande. Un'ulteriore indagine mostra che questo fenomeno è strettamente correlato alle capacità di auto-revisione dei modelli: CoT più lunghe contengono più auto-revisioni, che spesso portano a un degrado delle prestazioni. Successivamente, confrontiamo le strategie di ridimensionamento sequenziale e parallelo su QwQ, R1 e LIMO, riscontrando che il ridimensionamento parallelo ottiene una migliore copertura e scalabilità. Sulla base di queste osservazioni, proponiamo il Voto di Maggioranza più Breve, un metodo che combina strategie di ridimensionamento parallelo con le caratteristiche della lunghezza delle CoT, migliorando significativamente la scalabilità al momento del test dei modelli rispetto agli approcci convenzionali di voto di maggioranza.
English
The advent of test-time scaling in large language models (LLMs), exemplified
by OpenAI's o1 series, has advanced reasoning capabilities by scaling
computational resource allocation during inference. While successors like QwQ,
Deepseek-R1 (R1) and LIMO replicate these advancements, whether these models
truly possess test-time scaling capabilities remains underexplored. This study
found that longer CoTs of these o1-like models do not consistently enhance
accuracy; in fact, correct solutions are often shorter than incorrect ones for
the same questions. Further investigation shows this phenomenon is closely
related to models' self-revision capabilities - longer CoTs contain more
self-revisions, which often lead to performance degradation. We then compare
sequential and parallel scaling strategies on QwQ, R1 and LIMO, finding that
parallel scaling achieves better coverage and scalability. Based on these
insights, we propose Shortest Majority Vote, a method that combines parallel
scaling strategies with CoT length characteristics, significantly improving
models' test-time scalability compared to conventional majority voting
approaches.Summary
AI-Generated Summary