Aufdeckung algorithmischer deduktiver Schaltkreise für logisches Schließen

Zusammenfassung

Aktuelle Studien haben gezeigt, dass große Sprachmodelle (LLMs) eine starke Argumentationsleistung erzielen können, indem sie funktionale symbolische Repräsentationen einbeziehen, die Graphen-Durchlaufalgorithmen und schrittweise Argumentation in Few-Shot-Lernsettings abstrakt beschreiben. Es bleibt jedoch unklar, wie LLMs die abstrakte Bedeutung jedes Argumentationsschritts und des Gesamtalgorithmus aus nur einer begrenzten Anzahl von Demonstrationen wirklich verstehen. Diese Arbeit zielt darauf ab, die Aufmerksamkeitsköpfe zu lokalisieren, die für einzelne Argumentationsschritte verantwortlich sind, und die Arten der zwischen ihnen übertragenen Informationen zu charakterisieren. Wir gleichen zunächst die einzelnen Argumentationsschritte mit ihren entsprechenden Token-Logits unter einem symbolgestützten Chain-of-Thought (CoT)-Prompting-Rahmenwerk ab. Unsere Analyse zeigt, dass Token-Positionen, die den Argumentationsprozess steuern, mit niedrigen Konfidenzwerten verbunden sind, die durch Einschränkungen bei der Erfüllung von Argumentationsverhaltensmustern in Demonstrationen verursacht werden. Anschließend wenden wir Techniken der kausalen Mediationsanalyse an, um die für diese Muster verantwortlichen Aufmerksamkeitsköpfe zu identifizieren. Darüber hinaus deuten unsere Ergebnisse darauf hin, dass LLMs faktenbasierte und regelbasierte Informationen für einzelne Teilargumentationsaufgaben durch spezialisierte Aufmerksamkeitsköpfe (etwa 3% aller Köpfe) abrufen, während höhere Schichten hauptsächlich die Informationsintegration und die Entstehung globaler Argumentationsstrategien (z. B. Graphen-Durchlaufalgorithmen) fördern, die mehrere Zwischenargumentationsschritte koordinieren, um die Gesamtaufgabe zu lösen.

English

Recent studies have shown that Large Language Models (LLMs) can achieve strong reasoning performance by incorporating functional symbolic representations that abstractly describe graph traversal algorithms and step-by-step reasoning in few-shot learning settings. However, it remains unclear how LLMs genuinely understand the abstract meaning of each reasoning step and the overall algorithm from only a limited number of demonstrations. This work aims to localize the attention heads responsible for individual reasoning steps and characterize the types of information transferred among them. We first align constituent reasoning steps with their corresponding token logits under a symbolic-aided Chain-of-Thought (CoT) prompting framework. Our analysis shows that token positions that steer the reasoning process are associated with low confidence scores caused by constraints on satisfying reasoning behavior patterns in demonstrations. We then adopt causal mediation analysis techniques to identify the attention heads responsible for these patterns. In addition, our findings indicate that LLMs retrieve factual and rule-based information for individual sub-reasoning tasks through specialized attention heads (approximately 3% total heads), whereas higher layers predominantly facilitate information integration and the emergence of global reasoning strategies (e.g., graph traversal algorithms) that coordinate multiple intermediate reasoning steps to solve the overall task.