Reconsidérer la mise à l'échelle au moment du test des modèles de type o1 : Possèdent-ils réellement des capacités de mise à l'échelle lors des tests ?

papers.abstract

L'avènement de la mise à l'échelle au moment du test dans les grands modèles de langage (LLMs), illustré par la série o1 d'OpenAI, a amélioré les capacités de raisonnement en ajustant l'allocation des ressources computationnelles lors de l'inférence. Bien que des successeurs comme QwQ, Deepseek-R1 (R1) et LIMO reproduisent ces avancées, la question de savoir si ces modèles possèdent véritablement des capacités de mise à l'échelle au moment du test reste peu explorée. Cette étude a révélé que des chaînes de pensée (CoTs) plus longues de ces modèles de type o1 n'améliorent pas systématiquement la précision ; en fait, les solutions correctes sont souvent plus courtes que les solutions incorrectes pour les mêmes questions. Une investigation plus approfondie montre que ce phénomène est étroitement lié aux capacités d'autorévision des modèles - les CoTs plus longues contiennent plus d'autorévisions, ce qui entraîne souvent une dégradation des performances. Nous comparons ensuite les stratégies de mise à l'échelle séquentielle et parallèle sur QwQ, R1 et LIMO, constatant que la mise à l'échelle parallèle offre une meilleure couverture et évolutivité. Sur la base de ces observations, nous proposons le vote majoritaire le plus court, une méthode qui combine des stratégies de mise à l'échelle parallèle avec les caractéristiques de longueur des CoTs, améliorant significativement l'évolutivité des modèles au moment du test par rapport aux approches de vote majoritaire conventionnelles.

English

The advent of test-time scaling in large language models (LLMs), exemplified by OpenAI's o1 series, has advanced reasoning capabilities by scaling computational resource allocation during inference. While successors like QwQ, Deepseek-R1 (R1) and LIMO replicate these advancements, whether these models truly possess test-time scaling capabilities remains underexplored. This study found that longer CoTs of these o1-like models do not consistently enhance accuracy; in fact, correct solutions are often shorter than incorrect ones for the same questions. Further investigation shows this phenomenon is closely related to models' self-revision capabilities - longer CoTs contain more self-revisions, which often lead to performance degradation. We then compare sequential and parallel scaling strategies on QwQ, R1 and LIMO, finding that parallel scaling achieves better coverage and scalability. Based on these insights, we propose Shortest Majority Vote, a method that combines parallel scaling strategies with CoT length characteristics, significantly improving models' test-time scalability compared to conventional majority voting approaches.

Reconsidérer la mise à l'échelle au moment du test des modèles de type o1 : Possèdent-ils réellement des capacités de mise à l'échelle lors des tests ?

Revisiting the Test-Time Scaling of o1-like Models: Do they Truly Possess Test-Time Scaling Capabilities?

papers.abstract

Support