Não Pense Demais. Prefira Cadeias de Pensamento Mais Curtas para Melhorar o Raciocínio de LLMs
Don't Overthink it. Preferring Shorter Thinking Chains for Improved LLM Reasoning
May 23, 2025
Autores: Michael Hassid, Gabriel Synnaeve, Yossi Adi, Roy Schwartz
cs.AI
Resumo
Modelos de linguagem de grande escala (LLMs) para raciocínio dependem fortemente do aumento do poder computacional em tempo de teste para realizar tarefas complexas de raciocínio, gerando extensas cadeias de "pensamento". Embora demonstrem resultados impressionantes, essa abordagem acarreta custos computacionais significativos e tempo de inferência prolongado. Neste trabalho, questionamos a suposição de que cadeias de pensamento mais longas resultam em melhores capacidades de raciocínio. Primeiro, demonstramos que cadeias de raciocínio mais curtas dentro de perguntas individuais têm uma probabilidade significativamente maior de produzir respostas corretas — até 34,5% mais precisas do que a cadeia mais longa amostrada para a mesma pergunta. Com base nesses resultados, propomos o short-m@k, um novo método de inferência para LLMs de raciocínio. Nosso método executa k gerações independentes em paralelo e interrompe o cálculo assim que os primeiros m processos de pensamento são concluídos. A resposta final é escolhida por votação majoritária entre essas m cadeias. O short-1@k básico demonstra desempenho semelhante ou até superior ao da votação majoritária padrão em configurações de baixo poder computacional — utilizando até 40% menos tokens de pensamento. O short-3@k, embora ligeiramente menos eficiente que o short-1@k, supera consistentemente a votação majoritária em todos os orçamentos computacionais, enquanto ainda é substancialmente mais rápido (redução de até 33% no tempo de execução). Inspirados por nossos resultados, ajustamos um LLM usando cadeias de raciocínio curtas, longas e selecionadas aleatoriamente. Observamos que o treinamento com as cadeias mais curtas leva a um melhor desempenho. Nossas descobertas sugerem repensar os métodos atuais de computação em tempo de teste em LLMs de raciocínio, enfatizando que um "pensamento" mais longo não necessariamente se traduz em melhor desempenho e pode, de forma contra-intuitiva, levar a resultados degradados.
English
Reasoning large language models (LLMs) heavily rely on scaling test-time
compute to perform complex reasoning tasks by generating extensive "thinking"
chains. While demonstrating impressive results, this approach incurs
significant computational costs and inference time. In this work, we challenge
the assumption that long thinking chains results in better reasoning
capabilities. We first demonstrate that shorter reasoning chains within
individual questions are significantly more likely to yield correct answers -
up to 34.5% more accurate than the longest chain sampled for the same question.
Based on these results, we suggest short-m@k, a novel reasoning LLM inference
method. Our method executes k independent generations in parallel and halts
computation once the first m thinking processes are done. The final answer is
chosen using majority voting among these m chains. Basic short-1@k demonstrates
similar or even superior performance over standard majority voting in
low-compute settings - using up to 40% fewer thinking tokens. short-3@k, while
slightly less efficient than short-1@k, consistently surpasses majority voting
across all compute budgets, while still being substantially faster (up to 33%
wall time reduction). Inspired by our results, we finetune an LLM using short,
long, and randomly selected reasoning chains. We then observe that training on
the shorter ones leads to better performance. Our findings suggest rethinking
current methods of test-time compute in reasoning LLMs, emphasizing that longer
"thinking" does not necessarily translate to improved performance and can,
counter-intuitively, lead to degraded results.