Não Pense Demais. Prefira Cadeias de Pensamento Mais Curtas para Melhorar o Raciocínio de LLMs

Resumo

Modelos de linguagem de grande escala (LLMs) para raciocínio dependem fortemente do aumento do poder computacional em tempo de teste para realizar tarefas complexas de raciocínio, gerando extensas cadeias de "pensamento". Embora demonstrem resultados impressionantes, essa abordagem acarreta custos computacionais significativos e tempo de inferência prolongado. Neste trabalho, questionamos a suposição de que cadeias de pensamento mais longas resultam em melhores capacidades de raciocínio. Primeiro, demonstramos que cadeias de raciocínio mais curtas dentro de perguntas individuais têm uma probabilidade significativamente maior de produzir respostas corretas — até 34,5% mais precisas do que a cadeia mais longa amostrada para a mesma pergunta. Com base nesses resultados, propomos o short-m@k, um novo método de inferência para LLMs de raciocínio. Nosso método executa k gerações independentes em paralelo e interrompe o cálculo assim que os primeiros m processos de pensamento são concluídos. A resposta final é escolhida por votação majoritária entre essas m cadeias. O short-1@k básico demonstra desempenho semelhante ou até superior ao da votação majoritária padrão em configurações de baixo poder computacional — utilizando até 40% menos tokens de pensamento. O short-3@k, embora ligeiramente menos eficiente que o short-1@k, supera consistentemente a votação majoritária em todos os orçamentos computacionais, enquanto ainda é substancialmente mais rápido (redução de até 33% no tempo de execução). Inspirados por nossos resultados, ajustamos um LLM usando cadeias de raciocínio curtas, longas e selecionadas aleatoriamente. Observamos que o treinamento com as cadeias mais curtas leva a um melhor desempenho. Nossas descobertas sugerem repensar os métodos atuais de computação em tempo de teste em LLMs de raciocínio, enfatizando que um "pensamento" mais longo não necessariamente se traduz em melhor desempenho e pode, de forma contra-intuitiva, levar a resultados degradados.

English

Reasoning large language models (LLMs) heavily rely on scaling test-time compute to perform complex reasoning tasks by generating extensive "thinking" chains. While demonstrating impressive results, this approach incurs significant computational costs and inference time. In this work, we challenge the assumption that long thinking chains results in better reasoning capabilities. We first demonstrate that shorter reasoning chains within individual questions are significantly more likely to yield correct answers - up to 34.5% more accurate than the longest chain sampled for the same question. Based on these results, we suggest short-m@k, a novel reasoning LLM inference method. Our method executes k independent generations in parallel and halts computation once the first m thinking processes are done. The final answer is chosen using majority voting among these m chains. Basic short-1@k demonstrates similar or even superior performance over standard majority voting in low-compute settings - using up to 40% fewer thinking tokens. short-3@k, while slightly less efficient than short-1@k, consistently surpasses majority voting across all compute budgets, while still being substantially faster (up to 33% wall time reduction). Inspired by our results, we finetune an LLM using short, long, and randomly selected reasoning chains. We then observe that training on the shorter ones leads to better performance. Our findings suggest rethinking current methods of test-time compute in reasoning LLMs, emphasizing that longer "thinking" does not necessarily translate to improved performance and can, counter-intuitively, lead to degraded results.

Não Pense Demais. Prefira Cadeias de Pensamento Mais Curtas para Melhorar o Raciocínio de LLMs

Don't Overthink it. Preferring Shorter Thinking Chains for Improved LLM Reasoning

Resumo

Support