Superando os Limites do Raciocínio em LLMs: Monitoramento e Controle do Comprimento dos Caminhos de Pensamento em Modelos de Linguagem

Resumo

Recentemente, técnicas como o raciocínio estruturado explícito demonstraram um forte comportamento de escalonamento durante o teste ao impor uma separação entre o processo interno de "pensamento" do modelo e a resposta final. Um fator chave que influencia a qualidade da resposta nesse contexto é a duração da etapa de pensamento. Quando o raciocínio é muito curto, o modelo pode falhar em capturar a complexidade da tarefa. Por outro lado, quando é muito longo, o modelo pode pensar demais, levando a computação desnecessária e degradação do desempenho. Este artigo explora e explora os mecanismos subjacentes pelos quais os LLMs compreendem e regulam a duração de seu raciocínio durante processos de pensamento explícitos. Primeiro, mostramos que os LLMs codificam seu progresso através do processo de raciocínio e introduzimos uma visualização interativa de barra de progresso, que é então usada para revelar insights sobre a dinâmica de planejamento do modelo. Segundo, manipulamos a codificação interna do progresso durante a inferência para reduzir etapas desnecessárias e gerar uma cadeia de pensamentos mais concisa e decisiva. Nossos resultados empíricos demonstram que esse método de "overclocking" mitiga o excesso de pensamento, melhora a precisão das respostas e reduz a latência de inferência. Nosso código está publicamente disponível.

English

Recently, techniques such as explicit structured reasoning have demonstrated strong test-time scaling behavior by enforcing a separation between the model's internal "thinking" process and the final response. A key factor influencing answer quality in this setting is the length of the thinking stage. When the reasoning is too short, the model may fail to capture the complexity of the task. Conversely, when it is too long, the model may overthink, leading to unnecessary computation and degraded performance. This paper explores and exploits the underlying mechanisms by which LLMs understand and regulate the length of their reasoning during explicit thought processes. First, we show that LLMs encode their progress through the reasoning process and introduce an interactive progress bar visualization, which is then used to reveal insights on the model's planning dynamics. Second, we manipulate the internal progress encoding during inference to reduce unnecessary steps and generate a more concise and decisive chain of thoughts. Our empirical results demonstrate that this "overclocking" method mitigates overthinking, improves answer accuracy, and reduces inference latency. Our code is publicly available.

Superando os Limites do Raciocínio em LLMs: Monitoramento e Controle do Comprimento dos Caminhos de Pensamento em Modelos de Linguagem

Overclocking LLM Reasoning: Monitoring and Controlling Thinking Path Lengths in LLMs

Resumo

Support