O Tempo Tem Seu Lugar? Cabeças Temporais: Onde os Modelos de Linguagem Recuperam Informações Específicas de Tempo

Resumo

Embora a capacidade dos modelos de linguagem de elicitar fatos tenha sido amplamente investigada, como eles lidam com fatos que mudam ao longo do tempo permanece pouco explorado. Descobrimos as Temporal Heads, cabeças de atenção específicas responsáveis principalmente pelo processamento de conhecimento temporal por meio de análise de circuitos. Confirmamos que essas cabeças estão presentes em vários modelos, embora suas localizações específicas possam variar, e suas respostas diferem dependendo do tipo de conhecimento e dos anos correspondentes. Desabilitar essas cabeças degrada a capacidade do modelo de recordar conhecimento específico de tempo, mantendo suas capacidades gerais sem comprometer o desempenho em tarefas invariantes no tempo e de resposta a perguntas. Além disso, as cabeças são ativadas não apenas por condições numéricas ("Em 2004"), mas também por aliases textuais ("No ano de ..."), indicando que elas codificam uma dimensão temporal que vai além de uma simples representação numérica. Adicionalmente, expandimos o potencial de nossas descobertas demonstrando como o conhecimento temporal pode ser editado ajustando os valores dessas cabeças.

English

While the ability of language models to elicit facts has been widely investigated, how they handle temporally changing facts remains underexplored. We discover Temporal Heads, specific attention heads primarily responsible for processing temporal knowledge through circuit analysis. We confirm that these heads are present across multiple models, though their specific locations may vary, and their responses differ depending on the type of knowledge and its corresponding years. Disabling these heads degrades the model's ability to recall time-specific knowledge while maintaining its general capabilities without compromising time-invariant and question-answering performances. Moreover, the heads are activated not only numeric conditions ("In 2004") but also textual aliases ("In the year ..."), indicating that they encode a temporal dimension beyond simple numerical representation. Furthermore, we expand the potential of our findings by demonstrating how temporal knowledge can be edited by adjusting the values of these heads.

O Tempo Tem Seu Lugar? Cabeças Temporais: Onde os Modelos de Linguagem Recuperam Informações Específicas de Tempo

Does Time Have Its Place? Temporal Heads: Where Language Models Recall Time-specific Information

Resumo

Support