Desvendando Circuitos Dedutivos Algorítmicos para Raciocínio Lógico

Resumo

Estudos recentes mostraram que Grandes Modelos de Linguagem (LLMs) podem alcançar um forte desempenho de raciocínio ao incorporar representações simbólicas funcionais que descrevem abstratamente algoritmos de travessia de grafos e raciocínio passo a passo em cenários de aprendizado com poucos exemplos. No entanto, ainda não está claro como os LLMs compreendem genuinamente o significado abstrato de cada etapa de raciocínio e do algoritmo geral a partir de apenas um número limitado de demonstrações. Este trabalho tem como objetivo localizar as cabeças de atenção responsáveis por etapas individuais de raciocínio e caracterizar os tipos de informação transferidos entre elas. Primeiramente, alinhamos as etapas de raciocínio constituintes com seus correspondentes logits de token sob uma estrutura de prompt de Cadeia de Pensamento (CoT) auxiliada por símbolos. Nossa análise mostra que as posições dos tokens que direcionam o processo de raciocínio estão associadas a baixas pontuações de confiança causadas por restrições na satisfação de padrões de comportamento de raciocínio nas demonstrações. Em seguida, adotamos técnicas de análise de mediação causal para identificar as cabeças de atenção responsáveis por esses padrões. Além disso, nossos achados indicam que os LLMs recuperam informações factuais e baseadas em regras para tarefas individuais de sub-raciocínio por meio de cabeças de atenção especializadas (aproximadamente 3% do total de cabeças), enquanto as camadas superiores facilitam predominantemente a integração de informações e o surgimento de estratégias de raciocínio global (por exemplo, algoritmos de travessia de grafos) que coordenam múltiplas etapas intermediárias de raciocínio para resolver a tarefa geral.

English

Recent studies have shown that Large Language Models (LLMs) can achieve strong reasoning performance by incorporating functional symbolic representations that abstractly describe graph traversal algorithms and step-by-step reasoning in few-shot learning settings. However, it remains unclear how LLMs genuinely understand the abstract meaning of each reasoning step and the overall algorithm from only a limited number of demonstrations. This work aims to localize the attention heads responsible for individual reasoning steps and characterize the types of information transferred among them. We first align constituent reasoning steps with their corresponding token logits under a symbolic-aided Chain-of-Thought (CoT) prompting framework. Our analysis shows that token positions that steer the reasoning process are associated with low confidence scores caused by constraints on satisfying reasoning behavior patterns in demonstrations. We then adopt causal mediation analysis techniques to identify the attention heads responsible for these patterns. In addition, our findings indicate that LLMs retrieve factual and rule-based information for individual sub-reasoning tasks through specialized attention heads (approximately 3% total heads), whereas higher layers predominantly facilitate information integration and the emergence of global reasoning strategies (e.g., graph traversal algorithms) that coordinate multiple intermediate reasoning steps to solve the overall task.