Neurones de Vérité
Truth Neurons
May 18, 2025
Auteurs: Haohang Li, Yupeng Cao, Yangyang Yu, Jordan W. Suchow, Zining Zhu
cs.AI
Résumé
Malgré leur succès remarquable et leur déploiement dans divers flux de travail, les modèles de langage produisent parfois des réponses non véridiques. Notre compréhension limitée de la manière dont la véracité est encodée de manière mécanique dans ces modèles compromet leur fiabilité et leur sécurité. Dans cet article, nous proposons une méthode pour identifier les représentations de la véracité au niveau des neurones. Nous montrons que les modèles de langage contiennent des neurones de vérité, qui encodent la véracité de manière indépendante du sujet. Des expériences menées sur des modèles de différentes tailles valident l'existence de ces neurones de vérité, confirmant que l'encodage de la véracité au niveau des neurones est une propriété partagée par de nombreux modèles de langage. Les motifs de distribution des neurones de vérité à travers les couches s'alignent avec les découvertes antérieures sur la géométrie de la véracité. La suppression sélective des activations des neurones de vérité identifiés via le jeu de données TruthfulQA dégrade les performances à la fois sur TruthfulQA et sur d'autres benchmarks, montrant que les mécanismes de véracité ne sont pas liés à un ensemble de données spécifique. Nos résultats offrent de nouvelles perspectives sur les mécanismes sous-jacents à la véracité dans les modèles de langage et mettent en lumière des directions potentielles pour améliorer leur fiabilité et leur crédibilité.
English
Despite their remarkable success and deployment across diverse workflows,
language models sometimes produce untruthful responses. Our limited
understanding of how truthfulness is mechanistically encoded within these
models jeopardizes their reliability and safety. In this paper, we propose a
method for identifying representations of truthfulness at the neuron level. We
show that language models contain truth neurons, which encode truthfulness in a
subject-agnostic manner. Experiments conducted across models of varying scales
validate the existence of truth neurons, confirming that the encoding of
truthfulness at the neuron level is a property shared by many language models.
The distribution patterns of truth neurons over layers align with prior
findings on the geometry of truthfulness. Selectively suppressing the
activations of truth neurons found through the TruthfulQA dataset degrades
performance both on TruthfulQA and on other benchmarks, showing that the
truthfulness mechanisms are not tied to a specific dataset. Our results offer
novel insights into the mechanisms underlying truthfulness in language models
and highlight potential directions toward improving their trustworthiness and
reliability.Summary
AI-Generated Summary