Overclocken van LLM-redenering: Bewaken en Beheersen van Denkpadlengtes in LLM's
Overclocking LLM Reasoning: Monitoring and Controlling Thinking Path Lengths in LLMs
June 8, 2025
Auteurs: Roy Eisenstadt, Itamar Zimerman, Lior Wolf
cs.AI
Samenvatting
Recentelijk hebben technieken zoals expliciete gestructureerde redenering sterke schaalbaarheid tijdens testtijden aangetoond door een scheiding af te dwingen tussen het interne "denkproces" van het model en het uiteindelijke antwoord. Een belangrijke factor die de kwaliteit van het antwoord in deze setting beïnvloedt, is de lengte van de denkfase. Wanneer de redenering te kort is, kan het model de complexiteit van de taak niet voldoende vatten. Omgekeerd, wanneer het te lang is, kan het model overdenken, wat leidt tot onnodige berekeningen en verminderde prestaties. Dit artikel onderzoekt en benut de onderliggende mechanismen waarmee grote taalmodellen (LLMs) de lengte van hun redenering tijdens expliciete denkprocessen begrijpen en reguleren. Ten eerste tonen we aan dat LLMs hun voortgang in het redeneerproces coderen en introduceren we een interactieve voortgangsbalkvisualisatie, die vervolgens wordt gebruikt om inzichten te onthullen over de planningsdynamiek van het model. Ten tweede manipuleren we de interne voortgangscodering tijdens inferentie om onnodige stappen te verminderen en een meer beknopte en besluitvaardige gedachtegang te genereren. Onze empirische resultaten tonen aan dat deze "overclocking"-methode overdenken vermindert, de nauwkeurigheid van antwoorden verbetert en de inferentielatentie verlaagt. Onze code is publiekelijk beschikbaar.
English
Recently, techniques such as explicit structured reasoning have demonstrated
strong test-time scaling behavior by enforcing a separation between the model's
internal "thinking" process and the final response. A key factor influencing
answer quality in this setting is the length of the thinking stage. When the
reasoning is too short, the model may fail to capture the complexity of the
task. Conversely, when it is too long, the model may overthink, leading to
unnecessary computation and degraded performance. This paper explores and
exploits the underlying mechanisms by which LLMs understand and regulate the
length of their reasoning during explicit thought processes. First, we show
that LLMs encode their progress through the reasoning process and introduce an
interactive progress bar visualization, which is then used to reveal insights
on the model's planning dynamics. Second, we manipulate the internal progress
encoding during inference to reduce unnecessary steps and generate a more
concise and decisive chain of thoughts. Our empirical results demonstrate that
this "overclocking" method mitigates overthinking, improves answer accuracy,
and reduces inference latency. Our code is publicly available.