Surcadencement du raisonnement des LLM : Surveillance et contrôle des longueurs des chemins de pensée dans les LLM

papers.abstract

Récemment, des techniques telles que le raisonnement structuré explicite ont démontré un fort comportement de mise à l'échelle lors des tests en imposant une séparation entre le processus de "réflexion" interne du modèle et la réponse finale. Un facteur clé influençant la qualité des réponses dans ce contexte est la durée de l'étape de réflexion. Lorsque le raisonnement est trop court, le modèle peut échouer à saisir la complexité de la tâche. Inversement, lorsqu'il est trop long, le modèle peut surréfléchir, entraînant des calculs inutiles et une dégradation des performances. Cet article explore et exploite les mécanismes sous-jacents par lesquels les modèles de langage (LLMs) comprennent et régulent la durée de leur raisonnement lors de processus de pensée explicites. Premièrement, nous montrons que les LLMs encodent leur progression dans le processus de raisonnement et introduisons une visualisation interactive sous forme de barre de progression, utilisée ensuite pour révéler des insights sur la dynamique de planification du modèle. Deuxièmement, nous manipulons l'encodage interne de la progression lors de l'inférence pour réduire les étapes inutiles et générer une chaîne de pensées plus concise et décisive. Nos résultats empiriques démontrent que cette méthode de "surcadencement" atténue la surréflexion, améliore la précision des réponses et réduit la latence d'inférence. Notre code est disponible publiquement.

English

Recently, techniques such as explicit structured reasoning have demonstrated strong test-time scaling behavior by enforcing a separation between the model's internal "thinking" process and the final response. A key factor influencing answer quality in this setting is the length of the thinking stage. When the reasoning is too short, the model may fail to capture the complexity of the task. Conversely, when it is too long, the model may overthink, leading to unnecessary computation and degraded performance. This paper explores and exploits the underlying mechanisms by which LLMs understand and regulate the length of their reasoning during explicit thought processes. First, we show that LLMs encode their progress through the reasoning process and introduce an interactive progress bar visualization, which is then used to reveal insights on the model's planning dynamics. Second, we manipulate the internal progress encoding during inference to reduce unnecessary steps and generate a more concise and decisive chain of thoughts. Our empirical results demonstrate that this "overclocking" method mitigates overthinking, improves answer accuracy, and reduces inference latency. Our code is publicly available.

Surcadencement du raisonnement des LLM : Surveillance et contrôle des longueurs des chemins de pensée dans les LLM

Overclocking LLM Reasoning: Monitoring and Controlling Thinking Path Lengths in LLMs

papers.abstract

Support