ChatPaper.aiChatPaper

Het opnieuw bekijken van de testtijd-schaalbaarheid van o1-achtige modellen: Beschikken ze werkelijk over testtijd-schaalbaarheidsmogelijkheden?

Revisiting the Test-Time Scaling of o1-like Models: Do they Truly Possess Test-Time Scaling Capabilities?

February 17, 2025
Auteurs: Zhiyuan Zeng, Qinyuan Cheng, Zhangyue Yin, Yunhua Zhou, Xipeng Qiu
cs.AI

Samenvatting

De opkomst van schaling tijdens testtijd in grote taalmmodellen (LLM's), geïllustreerd door OpenAI's o1-serie, heeft de redeneervaardigheden verbeterd door de toewijzing van rekenbronnen tijdens inferentie te schalen. Hoewel opvolgers zoals QwQ, Deepseek-R1 (R1) en LIMO deze vooruitgang repliceren, blijft de vraag of deze modellen daadwerkelijk schaalcapaciteiten tijdens testtijd bezitten onderbelicht. Deze studie toonde aan dat langere ketens van gedachten (CoT's) van deze o1-achtige modellen niet consistent tot een hogere nauwkeurigheid leiden; in feite zijn correcte oplossingen vaak korter dan incorrecte voor dezelfde vragen. Verder onderzoek toont aan dat dit fenomeen nauw samenhangt met de zelfrevisiecapaciteiten van modellen - langere CoT's bevatten meer zelfrevisies, wat vaak leidt tot prestatievermindering. We vergelijken vervolgens sequentiële en parallelle schaalstrategieën op QwQ, R1 en LIMO, en ontdekken dat parallelle schaling een betere dekking en schaalbaarheid bereikt. Op basis van deze inzichten stellen we Shortest Majority Vote voor, een methode die parallelle schaalstrategieën combineert met CoT-lengtekenmerken, wat de schaalbaarheid van modellen tijdens testtijd aanzienlijk verbetert in vergelijking met conventionele meerderheidsstemmingsbenaderingen.
English
The advent of test-time scaling in large language models (LLMs), exemplified by OpenAI's o1 series, has advanced reasoning capabilities by scaling computational resource allocation during inference. While successors like QwQ, Deepseek-R1 (R1) and LIMO replicate these advancements, whether these models truly possess test-time scaling capabilities remains underexplored. This study found that longer CoTs of these o1-like models do not consistently enhance accuracy; in fact, correct solutions are often shorter than incorrect ones for the same questions. Further investigation shows this phenomenon is closely related to models' self-revision capabilities - longer CoTs contain more self-revisions, which often lead to performance degradation. We then compare sequential and parallel scaling strategies on QwQ, R1 and LIMO, finding that parallel scaling achieves better coverage and scalability. Based on these insights, we propose Shortest Majority Vote, a method that combines parallel scaling strategies with CoT length characteristics, significantly improving models' test-time scalability compared to conventional majority voting approaches.

Summary

AI-Generated Summary

PDF162February 19, 2025