Neurones de Vérité

papers.abstract

Malgré leur succès remarquable et leur déploiement dans divers flux de travail, les modèles de langage produisent parfois des réponses non véridiques. Notre compréhension limitée de la manière dont la véracité est encodée de manière mécanique dans ces modèles compromet leur fiabilité et leur sécurité. Dans cet article, nous proposons une méthode pour identifier les représentations de la véracité au niveau des neurones. Nous montrons que les modèles de langage contiennent des neurones de vérité, qui encodent la véracité de manière indépendante du sujet. Des expériences menées sur des modèles de différentes tailles valident l'existence de ces neurones de vérité, confirmant que l'encodage de la véracité au niveau des neurones est une propriété partagée par de nombreux modèles de langage. Les motifs de distribution des neurones de vérité à travers les couches s'alignent avec les découvertes antérieures sur la géométrie de la véracité. La suppression sélective des activations des neurones de vérité identifiés via le jeu de données TruthfulQA dégrade les performances à la fois sur TruthfulQA et sur d'autres benchmarks, montrant que les mécanismes de véracité ne sont pas liés à un ensemble de données spécifique. Nos résultats offrent de nouvelles perspectives sur les mécanismes sous-jacents à la véracité dans les modèles de langage et mettent en lumière des directions potentielles pour améliorer leur fiabilité et leur crédibilité.

English

Despite their remarkable success and deployment across diverse workflows, language models sometimes produce untruthful responses. Our limited understanding of how truthfulness is mechanistically encoded within these models jeopardizes their reliability and safety. In this paper, we propose a method for identifying representations of truthfulness at the neuron level. We show that language models contain truth neurons, which encode truthfulness in a subject-agnostic manner. Experiments conducted across models of varying scales validate the existence of truth neurons, confirming that the encoding of truthfulness at the neuron level is a property shared by many language models. The distribution patterns of truth neurons over layers align with prior findings on the geometry of truthfulness. Selectively suppressing the activations of truth neurons found through the TruthfulQA dataset degrades performance both on TruthfulQA and on other benchmarks, showing that the truthfulness mechanisms are not tied to a specific dataset. Our results offer novel insights into the mechanisms underlying truthfulness in language models and highlight potential directions toward improving their trustworthiness and reliability.

Neurones de Vérité

Truth Neurons

papers.abstract

Support