Overclocking del Ragionamento nei LLM: Monitoraggio e Controllo della Lunghezza dei Percorsi di Pensiero nei Modelli Linguistici
Overclocking LLM Reasoning: Monitoring and Controlling Thinking Path Lengths in LLMs
June 8, 2025
Autori: Roy Eisenstadt, Itamar Zimerman, Lior Wolf
cs.AI
Abstract
Recentemente, tecniche come il ragionamento strutturato esplicito hanno dimostrato un forte comportamento di scalabilità durante i test, imponendo una separazione tra il processo di "pensiero" interno del modello e la risposta finale. Un fattore chiave che influenza la qualità delle risposte in questo contesto è la durata della fase di pensiero. Quando il ragionamento è troppo breve, il modello potrebbe non cogliere la complessità del compito. Al contrario, quando è troppo lungo, il modello potrebbe sovrapensare, portando a calcoli non necessari e a un peggioramento delle prestazioni. Questo articolo esplora e sfrutta i meccanismi sottostanti attraverso i quali i modelli linguistici di grandi dimensioni (LLM) comprendono e regolano la durata del loro ragionamento durante i processi di pensiero espliciti. In primo luogo, dimostriamo che gli LLM codificano il loro avanzamento nel processo di ragionamento e introduciamo una visualizzazione interattiva della barra di progresso, che viene poi utilizzata per rivelare approfondimenti sulla dinamica di pianificazione del modello. In secondo luogo, manipoliamo la codifica interna del progresso durante l'inferenza per ridurre i passaggi non necessari e generare una catena di pensieri più concisa e decisiva. I nostri risultati empirici dimostrano che questo metodo di "overclocking" mitiga il sovrapensiero, migliora l'accuratezza delle risposte e riduce la latenza di inferenza. Il nostro codice è disponibile pubblicamente.
English
Recently, techniques such as explicit structured reasoning have demonstrated
strong test-time scaling behavior by enforcing a separation between the model's
internal "thinking" process and the final response. A key factor influencing
answer quality in this setting is the length of the thinking stage. When the
reasoning is too short, the model may fail to capture the complexity of the
task. Conversely, when it is too long, the model may overthink, leading to
unnecessary computation and degraded performance. This paper explores and
exploits the underlying mechanisms by which LLMs understand and regulate the
length of their reasoning during explicit thought processes. First, we show
that LLMs encode their progress through the reasoning process and introduce an
interactive progress bar visualization, which is then used to reveal insights
on the model's planning dynamics. Second, we manipulate the internal progress
encoding during inference to reduce unnecessary steps and generate a more
concise and decisive chain of thoughts. Our empirical results demonstrate that
this "overclocking" method mitigates overthinking, improves answer accuracy,
and reduces inference latency. Our code is publicly available.