Overclocking des LLM-Denkens: Überwachung und Steuerung der Denkpfadlängen in LLMs
Overclocking LLM Reasoning: Monitoring and Controlling Thinking Path Lengths in LLMs
June 8, 2025
Autoren: Roy Eisenstadt, Itamar Zimerman, Lior Wolf
cs.AI
Zusammenfassung
Kürzlich haben Techniken wie explizites strukturiertes Denken starkes Skalierungsverhalten zur Testzeit gezeigt, indem sie eine Trennung zwischen dem internen „Denkprozess“ des Modells und der endgültigen Antwort erzwingen. Ein entscheidender Faktor, der die Antwortqualität in diesem Kontext beeinflusst, ist die Länge der Denkphase. Wenn die Argumentation zu kurz ist, kann das Modell die Komplexität der Aufgabe nicht erfassen. Umgekehrt kann das Modell, wenn die Argumentation zu lang ist, überdenken, was zu unnötigen Berechnungen und einer Verschlechterung der Leistung führt. In diesem Artikel untersuchen und nutzen wir die zugrunde liegenden Mechanismen, durch die große Sprachmodelle (LLMs) die Länge ihrer Argumentation während expliziter Denkprozesse verstehen und regulieren. Zunächst zeigen wir, dass LLMs ihren Fortschritt im Denkprozess kodieren und führen eine interaktive Fortschrittsbalken-Visualisierung ein, die dann verwendet wird, um Einblicke in die Planungsdynamik des Modells zu gewähren. Zweitens manipulieren wir die interne Fortschrittskodierung während der Inferenz, um unnötige Schritte zu reduzieren und eine prägnantere und entschlossenere Gedankenkette zu erzeugen. Unsere empirischen Ergebnisse zeigen, dass diese „Übertaktungs“-Methode Überdenken mildert, die Antwortgenauigkeit verbessert und die Inferenzlatenz reduziert. Unser Code ist öffentlich verfügbar.
English
Recently, techniques such as explicit structured reasoning have demonstrated
strong test-time scaling behavior by enforcing a separation between the model's
internal "thinking" process and the final response. A key factor influencing
answer quality in this setting is the length of the thinking stage. When the
reasoning is too short, the model may fail to capture the complexity of the
task. Conversely, when it is too long, the model may overthink, leading to
unnecessary computation and degraded performance. This paper explores and
exploits the underlying mechanisms by which LLMs understand and regulate the
length of their reasoning during explicit thought processes. First, we show
that LLMs encode their progress through the reasoning process and introduce an
interactive progress bar visualization, which is then used to reveal insights
on the model's planning dynamics. Second, we manipulate the internal progress
encoding during inference to reduce unnecessary steps and generate a more
concise and decisive chain of thoughts. Our empirical results demonstrate that
this "overclocking" method mitigates overthinking, improves answer accuracy,
and reduces inference latency. Our code is publicly available.