ChatPaper.aiChatPaper

Revisitando a Escalabilidade em Tempo de Teste de Modelos do Tipo o1: Eles Realmente Possuem Capacidades de Escalabilidade em Tempo de Teste?

Revisiting the Test-Time Scaling of o1-like Models: Do they Truly Possess Test-Time Scaling Capabilities?

February 17, 2025
Autores: Zhiyuan Zeng, Qinyuan Cheng, Zhangyue Yin, Yunhua Zhou, Xipeng Qiu
cs.AI

Resumo

O advento do dimensionamento em tempo de teste em modelos de linguagem de grande escala (LLMs), exemplificado pela série o1 da OpenAI, avançou as capacidades de raciocínio ao escalar a alocação de recursos computacionais durante a inferência. Embora sucessores como QwQ, Deepseek-R1 (R1) e LIMO repliquem esses avanços, a questão de se esses modelos realmente possuem capacidades de dimensionamento em tempo de teste permanece pouco explorada. Este estudo descobriu que Cadeias de Pensamento (CoTs) mais longas desses modelos semelhantes ao o1 não melhoram consistentemente a precisão; na verdade, as soluções corretas são frequentemente mais curtas do que as incorretas para as mesmas perguntas. Uma investigação mais aprofundada mostra que esse fenômeno está intimamente relacionado às capacidades de autorrevisão dos modelos - CoTs mais longas contêm mais autorrevisões, que frequentemente levam à degradação do desempenho. Em seguida, comparamos estratégias de dimensionamento sequencial e paralelo em QwQ, R1 e LIMO, descobrindo que o dimensionamento paralelo alcança melhor cobertura e escalabilidade. Com base nessas descobertas, propomos o Voto da Maioria Mais Curta, um método que combina estratégias de dimensionamento paralelo com características de comprimento de CoT, melhorando significativamente a escalabilidade em tempo de teste dos modelos em comparação com abordagens convencionais de votação majoritária.
English
The advent of test-time scaling in large language models (LLMs), exemplified by OpenAI's o1 series, has advanced reasoning capabilities by scaling computational resource allocation during inference. While successors like QwQ, Deepseek-R1 (R1) and LIMO replicate these advancements, whether these models truly possess test-time scaling capabilities remains underexplored. This study found that longer CoTs of these o1-like models do not consistently enhance accuracy; in fact, correct solutions are often shorter than incorrect ones for the same questions. Further investigation shows this phenomenon is closely related to models' self-revision capabilities - longer CoTs contain more self-revisions, which often lead to performance degradation. We then compare sequential and parallel scaling strategies on QwQ, R1 and LIMO, finding that parallel scaling achieves better coverage and scalability. Based on these insights, we propose Shortest Majority Vote, a method that combines parallel scaling strategies with CoT length characteristics, significantly improving models' test-time scalability compared to conventional majority voting approaches.

Summary

AI-Generated Summary

PDF162February 19, 2025