Revisitando el escalado en tiempo de prueba de modelos tipo o1: ¿Realmente poseen capacidades de escalado en tiempo de prueba?

Resumen

La llegada del escalado en tiempo de prueba en los modelos de lenguaje de gran escala (LLMs), ejemplificado por la serie o1 de OpenAI, ha avanzado las capacidades de razonamiento al escalar la asignación de recursos computacionales durante la inferencia. Si bien sucesores como QwQ, Deepseek-R1 (R1) y LIMO replican estos avances, si estos modelos realmente poseen capacidades de escalado en tiempo de prueba sigue siendo un tema poco explorado. Este estudio encontró que las cadenas de pensamiento (CoTs) más largas de estos modelos similares a o1 no mejoran consistentemente la precisión; de hecho, las soluciones correctas suelen ser más cortas que las incorrectas para las mismas preguntas. Una investigación más profunda muestra que este fenómeno está estrechamente relacionado con las capacidades de autorrevisión de los modelos: las CoTs más largas contienen más autorrevisiones, lo que a menudo conduce a una degradación del rendimiento. Luego comparamos estrategias de escalado secuencial y paralelo en QwQ, R1 y LIMO, encontrando que el escalado paralelo logra una mejor cobertura y escalabilidad. Basándonos en estas ideas, proponemos el Voto Mayoritario más Corto, un método que combina estrategias de escalado paralelo con las características de longitud de las CoTs, mejorando significativamente la escalabilidad en tiempo de prueba de los modelos en comparación con los enfoques convencionales de votación mayoritaria.

English

The advent of test-time scaling in large language models (LLMs), exemplified by OpenAI's o1 series, has advanced reasoning capabilities by scaling computational resource allocation during inference. While successors like QwQ, Deepseek-R1 (R1) and LIMO replicate these advancements, whether these models truly possess test-time scaling capabilities remains underexplored. This study found that longer CoTs of these o1-like models do not consistently enhance accuracy; in fact, correct solutions are often shorter than incorrect ones for the same questions. Further investigation shows this phenomenon is closely related to models' self-revision capabilities - longer CoTs contain more self-revisions, which often lead to performance degradation. We then compare sequential and parallel scaling strategies on QwQ, R1 and LIMO, finding that parallel scaling achieves better coverage and scalability. Based on these insights, we propose Shortest Majority Vote, a method that combines parallel scaling strategies with CoT length characteristics, significantly improving models' test-time scalability compared to conventional majority voting approaches.

Revisitando el escalado en tiempo de prueba de modelos tipo o1: ¿Realmente poseen capacidades de escalado en tiempo de prueba?

Revisiting the Test-Time Scaling of o1-like Models: Do they Truly Possess Test-Time Scaling Capabilities?

Resumen

Support