ChatPaper.aiChatPaper

Waarheidsneuronen

Truth Neurons

May 18, 2025
Auteurs: Haohang Li, Yupeng Cao, Yangyang Yu, Jordan W. Suchow, Zining Zhu
cs.AI

Samenvatting

Ondanks hun opmerkelijke succes en inzet in diverse workflows, produceren taalmodelle soms onwaarachtige antwoorden. Ons beperkte begrip van hoe waarachtigheid mechanistisch is gecodeerd binnen deze modellen, brengt hun betrouwbaarheid en veiligheid in gevaar. In dit artikel stellen we een methode voor om representaties van waarachtigheid op het niveau van individuele neuronen te identificeren. We tonen aan dat taalmodelle waarheidsneuronen bevatten, die waarachtigheid op een onderwerp-onafhankelijke manier coderen. Experimenten uitgevoerd met modellen van verschillende schalen valideren het bestaan van waarheidsneuronen, wat bevestigt dat de codering van waarachtigheid op neuroniveau een eigenschap is die door veel taalmodelle wordt gedeeld. De distributiepatronen van waarheidsneuronen over de lagen komen overeen met eerdere bevindingen over de geometrie van waarachtigheid. Selectief onderdrukken van de activaties van waarheidsneuronen die zijn gevonden via de TruthfulQA-dataset, leidt tot prestatievermindering zowel op TruthfulQA als op andere benchmarks, wat aantoont dat de waarachtigheidsmechanismen niet gebonden zijn aan een specifieke dataset. Onze resultaten bieden nieuwe inzichten in de mechanismen die ten grondslag liggen aan waarachtigheid in taalmodelle en belichten mogelijke richtingen om hun betrouwbaarheid en vertrouwenswaardigheid te verbeteren.
English
Despite their remarkable success and deployment across diverse workflows, language models sometimes produce untruthful responses. Our limited understanding of how truthfulness is mechanistically encoded within these models jeopardizes their reliability and safety. In this paper, we propose a method for identifying representations of truthfulness at the neuron level. We show that language models contain truth neurons, which encode truthfulness in a subject-agnostic manner. Experiments conducted across models of varying scales validate the existence of truth neurons, confirming that the encoding of truthfulness at the neuron level is a property shared by many language models. The distribution patterns of truth neurons over layers align with prior findings on the geometry of truthfulness. Selectively suppressing the activations of truth neurons found through the TruthfulQA dataset degrades performance both on TruthfulQA and on other benchmarks, showing that the truthfulness mechanisms are not tied to a specific dataset. Our results offer novel insights into the mechanisms underlying truthfulness in language models and highlight potential directions toward improving their trustworthiness and reliability.

Summary

AI-Generated Summary

PDF62May 21, 2025