Onthulling van algoritmische deductieve circuits voor logisch redeneren

Samenvatting

Recente studies hebben aangetoond dat grote taalmodellen (Large Language Models, LLMs) sterke redeneerprestaties kunnen behalen door functionele symbolische representaties te integreren die abstract grafentraversal-algoritmen en stapsgewijze redenering in few-shot-leeromgevingen beschrijven. Het blijft echter onduidelijk hoe LLMs daadwerkelijk de abstracte betekenis van elke redeneerstap en het algehele algoritme begrijpen op basis van slechts een beperkt aantal voorbeelden. Dit werk beoogt de aandachtskoppen te lokaliseren die verantwoordelijk zijn voor individuele redeneerstappen en de soorten informatie te karakteriseren die daartussen worden overgedragen. We stemmen eerst de samenstellende redeneerstappen af op hun overeenkomstige token-logits onder een symbolisch-ondersteund Chain-of-Thought (CoT)-promptraamwerk. Onze analyse laat zien dat tokenposities die het redeneerproces sturen, geassocieerd zijn met lage betrouwbaarheidsscores als gevolg van beperkingen bij het voldoen aan redeneergedragspatronen in de voorbeelden. Vervolgens passen we causale mediatieanalysetechnieken toe om de aandachtskoppen te identificeren die verantwoordelijk zijn voor deze patronen. Daarnaast geven onze bevindingen aan dat LLMs feitelijke en op regels gebaseerde informatie ophalen voor individuele subredeneertaken via gespecialiseerde aandachtskoppen (ongeveer 3% van het totaal), terwijl hogere lagen voornamelijk informatie-integratie en de opkomst van mondiale redeneerstrategieën (bijv. grafentraversal-algoritmen) faciliteren die meerdere tussenliggende redeneerstappen coördineren om de algehele taak op te lossen.

English

Recent studies have shown that Large Language Models (LLMs) can achieve strong reasoning performance by incorporating functional symbolic representations that abstractly describe graph traversal algorithms and step-by-step reasoning in few-shot learning settings. However, it remains unclear how LLMs genuinely understand the abstract meaning of each reasoning step and the overall algorithm from only a limited number of demonstrations. This work aims to localize the attention heads responsible for individual reasoning steps and characterize the types of information transferred among them. We first align constituent reasoning steps with their corresponding token logits under a symbolic-aided Chain-of-Thought (CoT) prompting framework. Our analysis shows that token positions that steer the reasoning process are associated with low confidence scores caused by constraints on satisfying reasoning behavior patterns in demonstrations. We then adopt causal mediation analysis techniques to identify the attention heads responsible for these patterns. In addition, our findings indicate that LLMs retrieve factual and rule-based information for individual sub-reasoning tasks through specialized attention heads (approximately 3% total heads), whereas higher layers predominantly facilitate information integration and the emergence of global reasoning strategies (e.g., graph traversal algorithms) that coordinate multiple intermediate reasoning steps to solve the overall task.