Révélation des circuits déductifs algorithmiques pour le raisonnement logique

Résumé

Des études récentes ont montré que les grands modèles de langage (LLM) peuvent atteindre des performances de raisonnement solides en intégrant des représentations symboliques fonctionnelles qui décrivent abstraitement des algorithmes de parcours de graphe et un raisonnement étape par étape dans des contextes d'apprentissage à quelques exemples. Cependant, on ne sait pas clairement comment les LLM comprennent vraiment le sens abstrait de chaque étape de raisonnement et l'algorithme global à partir d'un nombre limité de démonstrations. Ce travail vise à localiser les têtes d'attention responsables des étapes individuelles de raisonnement et à caractériser les types d'informations transférées entre elles. Nous alignons d'abord les étapes de raisonnement constitutives avec leurs logits de jetons correspondants dans un cadre de sollicitation par Chaîne de Pensée (CoT) assistée par symboles. Notre analyse montre que les positions des jetons qui orientent le processus de raisonnement sont associées à des scores de confiance faibles, causés par des contraintes visant à satisfaire les schémas de comportement de raisonnement dans les démonstrations. Nous adoptons ensuite des techniques d'analyse de médiation causale pour identifier les têtes d'attention responsables de ces schémas. De plus, nos résultats indiquent que les LLM récupèrent des informations factuelles et basées sur des règles pour des sous-tâches de raisonnement individuelles via des têtes d'attention spécialisées (environ 3 % des têtes totales), tandis que les couches supérieures facilitent principalement l'intégration des informations et l'émergence de stratégies de raisonnement globales (par exemple, les algorithmes de parcours de graphe) qui coordonnent plusieurs étapes de raisonnement intermédiaires pour résoudre la tâche globale.

English

Recent studies have shown that Large Language Models (LLMs) can achieve strong reasoning performance by incorporating functional symbolic representations that abstractly describe graph traversal algorithms and step-by-step reasoning in few-shot learning settings. However, it remains unclear how LLMs genuinely understand the abstract meaning of each reasoning step and the overall algorithm from only a limited number of demonstrations. This work aims to localize the attention heads responsible for individual reasoning steps and characterize the types of information transferred among them. We first align constituent reasoning steps with their corresponding token logits under a symbolic-aided Chain-of-Thought (CoT) prompting framework. Our analysis shows that token positions that steer the reasoning process are associated with low confidence scores caused by constraints on satisfying reasoning behavior patterns in demonstrations. We then adopt causal mediation analysis techniques to identify the attention heads responsible for these patterns. In addition, our findings indicate that LLMs retrieve factual and rule-based information for individual sub-reasoning tasks through specialized attention heads (approximately 3% total heads), whereas higher layers predominantly facilitate information integration and the emergence of global reasoning strategies (e.g., graph traversal algorithms) that coordinate multiple intermediate reasoning steps to solve the overall task.