Revisitando el escalado en tiempo de prueba de modelos tipo o1: ¿Realmente poseen capacidades de escalado en tiempo de prueba?
Revisiting the Test-Time Scaling of o1-like Models: Do they Truly Possess Test-Time Scaling Capabilities?
February 17, 2025
Autores: Zhiyuan Zeng, Qinyuan Cheng, Zhangyue Yin, Yunhua Zhou, Xipeng Qiu
cs.AI
Resumen
La llegada del escalado en tiempo de prueba en los modelos de lenguaje de gran escala (LLMs), ejemplificado por la serie o1 de OpenAI, ha avanzado las capacidades de razonamiento al escalar la asignación de recursos computacionales durante la inferencia. Si bien sucesores como QwQ, Deepseek-R1 (R1) y LIMO replican estos avances, si estos modelos realmente poseen capacidades de escalado en tiempo de prueba sigue siendo un tema poco explorado. Este estudio encontró que las cadenas de pensamiento (CoTs) más largas de estos modelos similares a o1 no mejoran consistentemente la precisión; de hecho, las soluciones correctas suelen ser más cortas que las incorrectas para las mismas preguntas. Una investigación más profunda muestra que este fenómeno está estrechamente relacionado con las capacidades de autorrevisión de los modelos: las CoTs más largas contienen más autorrevisiones, lo que a menudo conduce a una degradación del rendimiento. Luego comparamos estrategias de escalado secuencial y paralelo en QwQ, R1 y LIMO, encontrando que el escalado paralelo logra una mejor cobertura y escalabilidad. Basándonos en estas ideas, proponemos el Voto Mayoritario más Corto, un método que combina estrategias de escalado paralelo con las características de longitud de las CoTs, mejorando significativamente la escalabilidad en tiempo de prueba de los modelos en comparación con los enfoques convencionales de votación mayoritaria.
English
The advent of test-time scaling in large language models (LLMs), exemplified
by OpenAI's o1 series, has advanced reasoning capabilities by scaling
computational resource allocation during inference. While successors like QwQ,
Deepseek-R1 (R1) and LIMO replicate these advancements, whether these models
truly possess test-time scaling capabilities remains underexplored. This study
found that longer CoTs of these o1-like models do not consistently enhance
accuracy; in fact, correct solutions are often shorter than incorrect ones for
the same questions. Further investigation shows this phenomenon is closely
related to models' self-revision capabilities - longer CoTs contain more
self-revisions, which often lead to performance degradation. We then compare
sequential and parallel scaling strategies on QwQ, R1 and LIMO, finding that
parallel scaling achieves better coverage and scalability. Based on these
insights, we propose Shortest Majority Vote, a method that combines parallel
scaling strategies with CoT length characteristics, significantly improving
models' test-time scalability compared to conventional majority voting
approaches.Summary
AI-Generated Summary