¿Tiene el tiempo su lugar? Cabezales temporales: Dónde los modelos de lenguaje recuerdan información específica del tiempo

Resumen

Si bien la capacidad de los modelos de lenguaje para evocar hechos ha sido ampliamente investigada, cómo manejan los hechos que cambian con el tiempo sigue siendo poco explorado. Descubrimos las Temporal Heads, cabezas de atención específicas principalmente responsables de procesar el conocimiento temporal mediante análisis de circuitos. Confirmamos que estas cabezas están presentes en múltiples modelos, aunque sus ubicaciones específicas pueden variar, y sus respuestas difieren según el tipo de conocimiento y los años correspondientes. Desactivar estas cabezas degrada la capacidad del modelo para recordar conocimientos específicos del tiempo, mientras mantiene sus capacidades generales sin comprometer el rendimiento en tareas invariantes en el tiempo y de respuesta a preguntas. Además, estas cabezas se activan no solo ante condiciones numéricas ("En 2004") sino también ante alias textuales ("En el año..."), lo que indica que codifican una dimensión temporal que va más allá de una simple representación numérica. Además, ampliamos el potencial de nuestros hallazgos al demostrar cómo el conocimiento temporal puede editarse ajustando los valores de estas cabezas.

English

While the ability of language models to elicit facts has been widely investigated, how they handle temporally changing facts remains underexplored. We discover Temporal Heads, specific attention heads primarily responsible for processing temporal knowledge through circuit analysis. We confirm that these heads are present across multiple models, though their specific locations may vary, and their responses differ depending on the type of knowledge and its corresponding years. Disabling these heads degrades the model's ability to recall time-specific knowledge while maintaining its general capabilities without compromising time-invariant and question-answering performances. Moreover, the heads are activated not only numeric conditions ("In 2004") but also textual aliases ("In the year ..."), indicating that they encode a temporal dimension beyond simple numerical representation. Furthermore, we expand the potential of our findings by demonstrating how temporal knowledge can be edited by adjusting the values of these heads.

¿Tiene el tiempo su lugar? Cabezales temporales: Dónde los modelos de lenguaje recuerdan información específica del tiempo

Does Time Have Its Place? Temporal Heads: Where Language Models Recall Time-specific Information

Resumen

Support