Heeft tijd zijn plaats? Temporele koppen: waar taalmodellen tijdsspecifieke informatie ophalen

Samenvatting

Hoewel het vermogen van taalmodellen om feiten op te roepen uitgebreid is onderzocht, blijft de manier waarop ze omgaan met tijdelijk veranderende feiten onderbelicht. Wij ontdekken Temporale Heads, specifieke aandachtskoppen die voornamelijk verantwoordelijk zijn voor het verwerken van temporele kennis door middel van circuitanalyse. We bevestigen dat deze koppen aanwezig zijn in meerdere modellen, hoewel hun specifieke locaties kunnen variëren, en hun reacties verschillen afhankelijk van het type kennis en de bijbehorende jaren. Het uitschakelen van deze koppen vermindert het vermogen van het model om tijdspecifieke kennis te herinneren, terwijl de algemene capaciteiten behouden blijven zonder afbreuk te doen aan tijdsonafhankelijke en vraag-antwoordprestaties. Bovendien worden de koppen niet alleen geactiveerd door numerieke voorwaarden ("In 2004") maar ook door tekstuele aliassen ("In het jaar ..."), wat aangeeft dat ze een temporele dimensie coderen die verder gaat dan een eenvoudige numerieke representatie. Verder breiden we de potentie van onze bevindingen uit door te demonstreren hoe temporele kennis kan worden bewerkt door de waarden van deze koppen aan te passen.

English

While the ability of language models to elicit facts has been widely investigated, how they handle temporally changing facts remains underexplored. We discover Temporal Heads, specific attention heads primarily responsible for processing temporal knowledge through circuit analysis. We confirm that these heads are present across multiple models, though their specific locations may vary, and their responses differ depending on the type of knowledge and its corresponding years. Disabling these heads degrades the model's ability to recall time-specific knowledge while maintaining its general capabilities without compromising time-invariant and question-answering performances. Moreover, the heads are activated not only numeric conditions ("In 2004") but also textual aliases ("In the year ..."), indicating that they encode a temporal dimension beyond simple numerical representation. Furthermore, we expand the potential of our findings by demonstrating how temporal knowledge can be edited by adjusting the values of these heads.

Heeft tijd zijn plaats? Temporele koppen: waar taalmodellen tijdsspecifieke informatie ophalen

Does Time Have Its Place? Temporal Heads: Where Language Models Recall Time-specific Information

Samenvatting

Support