Surcadencement du raisonnement des LLM : Surveillance et contrôle des longueurs des chemins de pensée dans les LLM
Overclocking LLM Reasoning: Monitoring and Controlling Thinking Path Lengths in LLMs
June 8, 2025
Auteurs: Roy Eisenstadt, Itamar Zimerman, Lior Wolf
cs.AI
Résumé
Récemment, des techniques telles que le raisonnement structuré explicite ont démontré un fort comportement de mise à l'échelle lors des tests en imposant une séparation entre le processus de "réflexion" interne du modèle et la réponse finale. Un facteur clé influençant la qualité des réponses dans ce contexte est la durée de l'étape de réflexion. Lorsque le raisonnement est trop court, le modèle peut échouer à saisir la complexité de la tâche. Inversement, lorsqu'il est trop long, le modèle peut surréfléchir, entraînant des calculs inutiles et une dégradation des performances. Cet article explore et exploite les mécanismes sous-jacents par lesquels les modèles de langage (LLMs) comprennent et régulent la durée de leur raisonnement lors de processus de pensée explicites. Premièrement, nous montrons que les LLMs encodent leur progression dans le processus de raisonnement et introduisons une visualisation interactive sous forme de barre de progression, utilisée ensuite pour révéler des insights sur la dynamique de planification du modèle. Deuxièmement, nous manipulons l'encodage interne de la progression lors de l'inférence pour réduire les étapes inutiles et générer une chaîne de pensées plus concise et décisive. Nos résultats empiriques démontrent que cette méthode de "surcadencement" atténue la surréflexion, améliore la précision des réponses et réduit la latence d'inférence. Notre code est disponible publiquement.
English
Recently, techniques such as explicit structured reasoning have demonstrated
strong test-time scaling behavior by enforcing a separation between the model's
internal "thinking" process and the final response. A key factor influencing
answer quality in this setting is the length of the thinking stage. When the
reasoning is too short, the model may fail to capture the complexity of the
task. Conversely, when it is too long, the model may overthink, leading to
unnecessary computation and degraded performance. This paper explores and
exploits the underlying mechanisms by which LLMs understand and regulate the
length of their reasoning during explicit thought processes. First, we show
that LLMs encode their progress through the reasoning process and introduce an
interactive progress bar visualization, which is then used to reveal insights
on the model's planning dynamics. Second, we manipulate the internal progress
encoding during inference to reduce unnecessary steps and generate a more
concise and decisive chain of thoughts. Our empirical results demonstrate that
this "overclocking" method mitigates overthinking, improves answer accuracy,
and reduces inference latency. Our code is publicly available.