Выявление алгоритмических дедуктивных схем для логического рассуждения

Аннотация

Недавние исследования показали, что большие языковые модели (LLM) могут достигать высокой производительности в рассуждениях за счет включения функциональных символьных представлений, которые абстрактно описывают алгоритмы обхода графов и пошаговые рассуждения в условиях обучения с несколькими примерами. Однако остается неясным, каким образом LLM действительно понимают абстрактный смысл каждого шага рассуждения и общий алгоритм на основе лишь ограниченного числа демонстраций. Данная работа направлена на локализацию голов внимания, ответственных за отдельные шаги рассуждения, и характеристику типов информации, передаваемой между ними. Мы сначала соотносим составные шаги рассуждения с соответствующими логитами токенов в рамках символьной подсказки с цепочкой мыслей (CoT). Наш анализ показывает, что позиции токенов, направляющие процесс рассуждения, связаны с низкими показателями уверенности, вызванными ограничениями на удовлетворение шаблонов поведения рассуждения в демонстрациях. Затем мы применяем методы анализа причинно-следственной медиации для идентификации голов внимания, ответственных за эти шаблоны. Кроме того, наши результаты показывают, что LLM извлекают фактические и основанные на правилах данные для отдельных подзадач рассуждения через специализированные головы внимания (примерно 3% всех голов), тогда как более высокие слои в основном способствуют интеграции информации и появлению глобальных стратегий рассуждения (например, алгоритмов обхода графов), которые координируют несколько промежуточных шагов рассуждения для решения общей задачи.

English

Recent studies have shown that Large Language Models (LLMs) can achieve strong reasoning performance by incorporating functional symbolic representations that abstractly describe graph traversal algorithms and step-by-step reasoning in few-shot learning settings. However, it remains unclear how LLMs genuinely understand the abstract meaning of each reasoning step and the overall algorithm from only a limited number of demonstrations. This work aims to localize the attention heads responsible for individual reasoning steps and characterize the types of information transferred among them. We first align constituent reasoning steps with their corresponding token logits under a symbolic-aided Chain-of-Thought (CoT) prompting framework. Our analysis shows that token positions that steer the reasoning process are associated with low confidence scores caused by constraints on satisfying reasoning behavior patterns in demonstrations. We then adopt causal mediation analysis techniques to identify the attention heads responsible for these patterns. In addition, our findings indicate that LLMs retrieve factual and rule-based information for individual sub-reasoning tasks through specialized attention heads (approximately 3% total heads), whereas higher layers predominantly facilitate information integration and the emergence of global reasoning strategies (e.g., graph traversal algorithms) that coordinate multiple intermediate reasoning steps to solve the overall task.