ChatPaper.aiChatPaper

Ancres de pensée : Quelles étapes de raisonnement des LLM sont cruciales ?

Thought Anchors: Which LLM Reasoning Steps Matter?

June 23, 2025
Auteurs: Paul C. Bogdan, Uzay Macar, Neel Nanda, Arthur Conmy
cs.AI

Résumé

Les grands modèles de langage dédiés au raisonnement ont récemment atteint des performances de pointe dans de nombreux domaines. Cependant, leur raisonnement en chaîne de pensée sur de longues séquences pose des défis d'interprétabilité, car chaque token généré dépend de tous les précédents, rendant la décomposition du calcul plus difficile. Nous soutenons que l'analyse des traces de raisonnement au niveau de la phrase est une approche prometteuse pour comprendre les processus de raisonnement. Nous présentons trois méthodes d'attribution complémentaires : (1) une méthode boîte noire mesurant l'importance contrefactuelle de chaque phrase en comparant les réponses finales sur 100 itérations conditionnées à la génération de cette phrase ou d'une autre de sens différent ; (2) une méthode boîte blanche agrégeant les motifs d'attention entre paires de phrases, qui a identifié des phrases de « diffusion » recevant une attention disproportionnée de toutes les phrases futures via des têtes d'attention « réceptrices » ; (3) une méthode d'attribution causale mesurant les connexions logiques entre phrases en supprimant l'attention vers une phrase et en mesurant l'effet sur les tokens de chaque phrase future. Chaque méthode fournit des preuves de l'existence d'ancres de pensée, des étapes de raisonnement d'importance majeure qui influencent de manière disproportionnée le processus de raisonnement ultérieur. Ces ancres de pensée sont généralement des phrases de planification ou de retour en arrière. Nous proposons un outil open-source (www.thought-anchors.com) pour visualiser les sorties de nos méthodes, et présentons une étude de cas montrant des motifs convergents entre les méthodes qui cartographient comment un modèle effectue un raisonnement à plusieurs étapes. La cohérence entre les méthodes démontre le potentiel de l'analyse au niveau de la phrase pour une compréhension approfondie des modèles de raisonnement.
English
Reasoning large language models have recently achieved state-of-the-art performance in many fields. However, their long-form chain-of-thought reasoning creates interpretability challenges as each generated token depends on all previous ones, making the computation harder to decompose. We argue that analyzing reasoning traces at the sentence level is a promising approach to understanding reasoning processes. We present three complementary attribution methods: (1) a black-box method measuring each sentence's counterfactual importance by comparing final answers across 100 rollouts conditioned on the model generating that sentence or one with a different meaning; (2) a white-box method of aggregating attention patterns between pairs of sentences, which identified ``broadcasting'' sentences that receive disproportionate attention from all future sentences via ``receiver'' attention heads; (3) a causal attribution method measuring logical connections between sentences by suppressing attention toward one sentence and measuring the effect on each future sentence's tokens. Each method provides evidence for the existence of thought anchors, reasoning steps that have outsized importance and that disproportionately influence the subsequent reasoning process. These thought anchors are typically planning or backtracking sentences. We provide an open-source tool (www.thought-anchors.com) for visualizing the outputs of our methods, and present a case study showing converging patterns across methods that map how a model performs multi-step reasoning. The consistency across methods demonstrates the potential of sentence-level analysis for a deeper understanding of reasoning models.
PDF91June 26, 2025