Het opnieuw bekijken van de testtijd-schaalbaarheid van o1-achtige modellen: Beschikken ze werkelijk over testtijd-schaalbaarheidsmogelijkheden?
Revisiting the Test-Time Scaling of o1-like Models: Do they Truly Possess Test-Time Scaling Capabilities?
February 17, 2025
Auteurs: Zhiyuan Zeng, Qinyuan Cheng, Zhangyue Yin, Yunhua Zhou, Xipeng Qiu
cs.AI
Samenvatting
De opkomst van schaling tijdens testtijd in grote taalmmodellen (LLM's), geïllustreerd door OpenAI's o1-serie, heeft de redeneervaardigheden verbeterd door de toewijzing van rekenbronnen tijdens inferentie te schalen. Hoewel opvolgers zoals QwQ, Deepseek-R1 (R1) en LIMO deze vooruitgang repliceren, blijft de vraag of deze modellen daadwerkelijk schaalcapaciteiten tijdens testtijd bezitten onderbelicht. Deze studie toonde aan dat langere ketens van gedachten (CoT's) van deze o1-achtige modellen niet consistent tot een hogere nauwkeurigheid leiden; in feite zijn correcte oplossingen vaak korter dan incorrecte voor dezelfde vragen. Verder onderzoek toont aan dat dit fenomeen nauw samenhangt met de zelfrevisiecapaciteiten van modellen - langere CoT's bevatten meer zelfrevisies, wat vaak leidt tot prestatievermindering. We vergelijken vervolgens sequentiële en parallelle schaalstrategieën op QwQ, R1 en LIMO, en ontdekken dat parallelle schaling een betere dekking en schaalbaarheid bereikt. Op basis van deze inzichten stellen we Shortest Majority Vote voor, een methode die parallelle schaalstrategieën combineert met CoT-lengtekenmerken, wat de schaalbaarheid van modellen tijdens testtijd aanzienlijk verbetert in vergelijking met conventionele meerderheidsstemmingsbenaderingen.
English
The advent of test-time scaling in large language models (LLMs), exemplified
by OpenAI's o1 series, has advanced reasoning capabilities by scaling
computational resource allocation during inference. While successors like QwQ,
Deepseek-R1 (R1) and LIMO replicate these advancements, whether these models
truly possess test-time scaling capabilities remains underexplored. This study
found that longer CoTs of these o1-like models do not consistently enhance
accuracy; in fact, correct solutions are often shorter than incorrect ones for
the same questions. Further investigation shows this phenomenon is closely
related to models' self-revision capabilities - longer CoTs contain more
self-revisions, which often lead to performance degradation. We then compare
sequential and parallel scaling strategies on QwQ, R1 and LIMO, finding that
parallel scaling achieves better coverage and scalability. Based on these
insights, we propose Shortest Majority Vote, a method that combines parallel
scaling strategies with CoT length characteristics, significantly improving
models' test-time scalability compared to conventional majority voting
approaches.Summary
AI-Generated Summary