Revelando Circuitos Algorítmicos Deductivos para el Razonamiento Lógico

Resumen

Estudios recientes han demostrado que los Modelos de Lenguaje Grandes (LLMs) pueden lograr un sólido rendimiento en razonamiento al incorporar representaciones simbólicas funcionales que describen de manera abstracta algoritmos de recorrido de grafos y razonamiento paso a paso en configuraciones de aprendizaje con pocos ejemplos. Sin embargo, aún no está claro cómo los LLMs comprenden genuinamente el significado abstracto de cada paso de razonamiento y del algoritmo completo a partir de un número limitado de demostraciones. Este trabajo tiene como objetivo localizar las cabezas de atención responsables de pasos de razonamiento individuales y caracterizar los tipos de información transferidos entre ellas. Primero alineamos los pasos de razonamiento constituyentes con sus logits de token correspondientes bajo un marco de incitación de Cadena de Pensamiento (CoT) asistido por símbolos. Nuestro análisis muestra que las posiciones de token que dirigen el proceso de razonamiento están asociadas con puntuaciones de confianza bajas causadas por restricciones en la satisfacción de patrones de comportamiento de razonamiento en las demostraciones. Luego adoptamos técnicas de análisis de mediación causal para identificar las cabezas de atención responsables de estos patrones. Además, nuestros hallazgos indican que los LLMs recuperan información factual y basada en reglas para tareas de sub-razonamiento individuales a través de cabezas de atención especializadas (aproximadamente el 3% del total de cabezas), mientras que las capas superiores facilitan predominantemente la integración de información y la aparición de estrategias globales de razonamiento (por ejemplo, algoritmos de recorrido de grafos) que coordinan múltiples pasos de razonamiento intermedios para resolver la tarea general.

English

Recent studies have shown that Large Language Models (LLMs) can achieve strong reasoning performance by incorporating functional symbolic representations that abstractly describe graph traversal algorithms and step-by-step reasoning in few-shot learning settings. However, it remains unclear how LLMs genuinely understand the abstract meaning of each reasoning step and the overall algorithm from only a limited number of demonstrations. This work aims to localize the attention heads responsible for individual reasoning steps and characterize the types of information transferred among them. We first align constituent reasoning steps with their corresponding token logits under a symbolic-aided Chain-of-Thought (CoT) prompting framework. Our analysis shows that token positions that steer the reasoning process are associated with low confidence scores caused by constraints on satisfying reasoning behavior patterns in demonstrations. We then adopt causal mediation analysis techniques to identify the attention heads responsible for these patterns. In addition, our findings indicate that LLMs retrieve factual and rule-based information for individual sub-reasoning tasks through specialized attention heads (approximately 3% total heads), whereas higher layers predominantly facilitate information integration and the emergence of global reasoning strategies (e.g., graph traversal algorithms) that coordinate multiple intermediate reasoning steps to solve the overall task.