ChatPaper.aiChatPaper

Des neurones spécifiques aux relations dans les grands modèles de langage

On Relation-Specific Neurons in Large Language Models

February 24, 2025
Auteurs: Yihong Liu, Runsheng Chen, Lea Hirlimann, Ahmad Dawar Hakimi, Mingyang Wang, Amir Hossein Kargaran, Sascha Rothe, François Yvon, Hinrich Schütze
cs.AI

Résumé

Dans les grands modèles de langage (LLM), certains neurones peuvent stocker des morceaux distincts de connaissances apprises lors de la pré-entraînement. Alors que la connaissance apparaît généralement comme une combinaison de relations et d'entités, il reste incertain si certains neurones se concentrent sur une relation en elle-même - indépendamment de toute entité. Nous émettons l'hypothèse que de tels neurones détectent une relation dans le texte d'entrée et guident la génération impliquant une telle relation. Pour étudier cela, nous examinons la famille Llama-2 sur un ensemble choisi de relations avec une méthode basée sur les statistiques. Nos expériences démontrent l'existence de neurones spécifiques à une relation. Nous mesurons l'effet de la désactivation sélective des neurones candidats spécifiques à la relation r sur la capacité du LLM à traiter (1) des faits dont la relation est r et (2) des faits dont la relation est une autre relation r' neq r. En ce qui concerne leur capacité à encoder des informations de relation, nous apportons des preuves des trois propriétés suivantes des neurones spécifiques à une relation. (i) Cumulativité des neurones. Les neurones pour r présentent un effet cumulatif de sorte que la désactivation d'une plus grande partie d'entre eux entraîne la dégradation de plus de faits en r. (ii) Polyvalence des neurones. Les neurones peuvent être partagés entre plusieurs relations étroitement liées ainsi que des relations moins liées. Certains neurones de relation se transfèrent entre les langues. (iii) Interférence des neurones. La désactivation de neurones spécifiques à une relation peut améliorer les performances de génération du LLM pour des faits d'autres relations. Nous rendrons notre code publiquement disponible sur https://github.com/cisnlp/relation-specific-neurons.
English
In large language models (LLMs), certain neurons can store distinct pieces of knowledge learned during pretraining. While knowledge typically appears as a combination of relations and entities, it remains unclear whether some neurons focus on a relation itself -- independent of any entity. We hypothesize such neurons detect a relation in the input text and guide generation involving such a relation. To investigate this, we study the Llama-2 family on a chosen set of relations with a statistics-based method. Our experiments demonstrate the existence of relation-specific neurons. We measure the effect of selectively deactivating candidate neurons specific to relation r on the LLM's ability to handle (1) facts whose relation is r and (2) facts whose relation is a different relation r' neq r. With respect to their capacity for encoding relation information, we give evidence for the following three properties of relation-specific neurons. (i) Neuron cumulativity. The neurons for r present a cumulative effect so that deactivating a larger portion of them results in the degradation of more facts in r. (ii) Neuron versatility. Neurons can be shared across multiple closely related as well as less related relations. Some relation neurons transfer across languages. (iii) Neuron interference. Deactivating neurons specific to one relation can improve LLM generation performance for facts of other relations. We will make our code publicly available at https://github.com/cisnlp/relation-specific-neurons.

Summary

AI-Generated Summary

PDF72February 28, 2025