O Caso Curioso das Analogias: Investigando o Raciocínio Analógico em Modelos de Linguagem de Grande Porte

Resumo

O raciocínio analógico está no centro da cognição humana, servindo como uma base importante para diversas atividades intelectuais. Embora trabalhos anteriores tenham demonstrado que os LLMs podem representar padrões de tarefas e conceitos superficiais, ainda não está claro se esses modelos podem codificar conceitos relacionais de alto nível e aplicá-los a novas situações por meio de comparações estruturadas. Neste trabalho, exploramos este aspeto fundamental usando analogias proporcionais e narrativas, e identificamos três descobertas principais. Primeiro, os LLMs codificam eficazmente as relações subjacentes entre entidades análogas; tanto a informação atributiva quanto a relacional propagam-se pelas camadas médias e superiores nos casos corretos, enquanto as falhas de raciocínio refletem a falta de informação relacional nessas camadas. Segundo, ao contrário dos humanos, os LLMs frequentemente lutam não apenas quando a informação relacional está ausente, mas também ao tentar aplicá-la a novas entidades. Nesses casos, a correção estratégica das representações ocultas em posições críticas de tokens pode facilitar a transferência de informação até certo ponto. Por fim, o raciocínio analógico bem-sucedido nos LLMs é marcado por um forte alinhamento estrutural entre situações análogas, enquanto as falhas frequentemente refletem um alinhamento degradado ou deslocado. No geral, nossas descobertas revelam que os LLMs exibem capacidades emergentes, mas limitadas, na codificação e aplicação de conceitos relacionais de alto nível, destacando tanto paralelos quanto lacunas com a cognição humana.

English

Analogical reasoning is at the core of human cognition, serving as an important foundation for a variety of intellectual activities. While prior work has shown that LLMs can represent task patterns and surface-level concepts, it remains unclear whether these models can encode high-level relational concepts and apply them to novel situations through structured comparisons. In this work, we explore this fundamental aspect using proportional and story analogies, and identify three key findings. First, LLMs effectively encode the underlying relationships between analogous entities; both attributive and relational information propagate through mid-upper layers in correct cases, whereas reasoning failures reflect missing relational information within these layers. Second, unlike humans, LLMs often struggle not only when relational information is missing, but also when attempting to apply it to new entities. In such cases, strategically patching hidden representations at critical token positions can facilitate information transfer to a certain extent. Lastly, successful analogical reasoning in LLMs is marked by strong structural alignment between analogous situations, whereas failures often reflect degraded or misplaced alignment. Overall, our findings reveal that LLMs exhibit emerging but limited capabilities in encoding and applying high-level relational concepts, highlighting both parallels and gaps with human cognition.

O Caso Curioso das Analogias: Investigando o Raciocínio Analógico em Modelos de Linguagem de Grande Porte

The Curious Case of Analogies: Investigating Analogical Reasoning in Large Language Models

Resumo

Support