Espere, não precisamos "esperar"! Remover tokens de pensamento melhora a eficiência do raciocínio

Resumo

Avanços recentes em modelos de raciocínio em grande escala têm permitido raciocínios complexos e passo a passo, mas frequentemente introduzem um excesso de pensamento, resultando em saídas verbosas e redundantes que prejudicam a eficiência. Neste estudo, examinamos se a autorreflexão explícita, sinalizada por tokens como "Espere" e "Hmm", é necessária para o raciocínio avançado. Propomos o NoWait, uma abordagem simples, porém eficaz, que desativa a autorreflexão explícita ao suprimir esses tokens durante a inferência. Experimentos extensos em dez benchmarks abrangendo tarefas de raciocínio textual, visual e em vídeo mostram que o NoWait reduz o comprimento da trajetória de cadeia de pensamento em até 27%-51% em cinco séries de modelos no estilo R1, sem comprometer a utilidade do modelo. Assim, o NoWait oferece uma solução plug-and-play para raciocínio multimodal eficiente e que preserva a utilidade.

English

Recent advances in large reasoning models have enabled complex, step-by-step reasoning but often introduce significant overthinking, resulting in verbose and redundant outputs that hinder efficiency. In this study, we examine whether explicit self-reflection, signaled by tokens such as "Wait" and "Hmm", is necessary for advanced reasoning. We propose NoWait, a simple yet effective approach that disables explicit self-reflection by suppressing these tokens during inference. Extensive experiments on ten benchmarks across textual, visual, and video reasoning tasks show that NoWait reduces chain-of-thought trajectory length by up to 27%-51% in five R1-style model series, without compromising model utility. NoWait thus offers a plug-and-play solution for efficient and utility-preserving multimodal reasoning.

Espere, não precisamos "esperar"! Remover tokens de pensamento melhora a eficiência do raciocínio

Wait, We Don't Need to "Wait"! Removing Thinking Tokens Improves Reasoning Efficiency

Resumo

Support