Reconsidérer la mise à l'échelle au moment du test des modèles de type o1 : Possèdent-ils réellement des capacités de mise à l'échelle lors des tests ?
Revisiting the Test-Time Scaling of o1-like Models: Do they Truly Possess Test-Time Scaling Capabilities?
February 17, 2025
Auteurs: Zhiyuan Zeng, Qinyuan Cheng, Zhangyue Yin, Yunhua Zhou, Xipeng Qiu
cs.AI
Résumé
L'avènement de la mise à l'échelle au moment du test dans les grands modèles de langage (LLMs), illustré par la série o1 d'OpenAI, a amélioré les capacités de raisonnement en ajustant l'allocation des ressources computationnelles lors de l'inférence. Bien que des successeurs comme QwQ, Deepseek-R1 (R1) et LIMO reproduisent ces avancées, la question de savoir si ces modèles possèdent véritablement des capacités de mise à l'échelle au moment du test reste peu explorée. Cette étude a révélé que des chaînes de pensée (CoTs) plus longues de ces modèles de type o1 n'améliorent pas systématiquement la précision ; en fait, les solutions correctes sont souvent plus courtes que les solutions incorrectes pour les mêmes questions. Une investigation plus approfondie montre que ce phénomène est étroitement lié aux capacités d'autorévision des modèles - les CoTs plus longues contiennent plus d'autorévisions, ce qui entraîne souvent une dégradation des performances. Nous comparons ensuite les stratégies de mise à l'échelle séquentielle et parallèle sur QwQ, R1 et LIMO, constatant que la mise à l'échelle parallèle offre une meilleure couverture et évolutivité. Sur la base de ces observations, nous proposons le vote majoritaire le plus court, une méthode qui combine des stratégies de mise à l'échelle parallèle avec les caractéristiques de longueur des CoTs, améliorant significativement l'évolutivité des modèles au moment du test par rapport aux approches de vote majoritaire conventionnelles.
English
The advent of test-time scaling in large language models (LLMs), exemplified
by OpenAI's o1 series, has advanced reasoning capabilities by scaling
computational resource allocation during inference. While successors like QwQ,
Deepseek-R1 (R1) and LIMO replicate these advancements, whether these models
truly possess test-time scaling capabilities remains underexplored. This study
found that longer CoTs of these o1-like models do not consistently enhance
accuracy; in fact, correct solutions are often shorter than incorrect ones for
the same questions. Further investigation shows this phenomenon is closely
related to models' self-revision capabilities - longer CoTs contain more
self-revisions, which often lead to performance degradation. We then compare
sequential and parallel scaling strategies on QwQ, R1 and LIMO, finding that
parallel scaling achieves better coverage and scalability. Based on these
insights, we propose Shortest Majority Vote, a method that combines parallel
scaling strategies with CoT length characteristics, significantly improving
models' test-time scalability compared to conventional majority voting
approaches.Summary
AI-Generated Summary