ChatPaper.aiChatPaper

真実ニューロン

Truth Neurons

May 18, 2025
著者: Haohang Li, Yupeng Cao, Yangyang Yu, Jordan W. Suchow, Zining Zhu
cs.AI

要旨

その驚異的な成功と多様なワークフローへの展開にもかかわらず、言語モデルは時に不真実な応答を生成することがある。これらのモデル内で真実性がどのように機械的に符号化されているかについての我々の理解が限られていることが、その信頼性と安全性を危うくしている。本論文では、ニューロンレベルで真実性の表現を特定する手法を提案する。言語モデルには、主題に依存しない形で真実性を符号化する「真実ニューロン」が含まれていることを示す。様々な規模のモデルで実施した実験により、真実ニューロンの存在が検証され、ニューロンレベルでの真実性の符号化が多くの言語モデルに共通する特性であることが確認された。真実ニューロンの層間分布パターンは、真実性の幾何学に関する先行研究と一致している。TruthfulQAデータセットを通じて発見された真実ニューロンの活性化を選択的に抑制すると、TruthfulQAだけでなく他のベンチマークでも性能が低下し、真実性のメカニズムが特定のデータセットに縛られていないことが示された。我々の結果は、言語モデルにおける真実性の基盤となるメカニズムに関する新たな知見を提供し、その信頼性と信頼度を向上させるための潜在的な方向性を提示するものである。
English
Despite their remarkable success and deployment across diverse workflows, language models sometimes produce untruthful responses. Our limited understanding of how truthfulness is mechanistically encoded within these models jeopardizes their reliability and safety. In this paper, we propose a method for identifying representations of truthfulness at the neuron level. We show that language models contain truth neurons, which encode truthfulness in a subject-agnostic manner. Experiments conducted across models of varying scales validate the existence of truth neurons, confirming that the encoding of truthfulness at the neuron level is a property shared by many language models. The distribution patterns of truth neurons over layers align with prior findings on the geometry of truthfulness. Selectively suppressing the activations of truth neurons found through the TruthfulQA dataset degrades performance both on TruthfulQA and on other benchmarks, showing that the truthfulness mechanisms are not tied to a specific dataset. Our results offer novel insights into the mechanisms underlying truthfulness in language models and highlight potential directions toward improving their trustworthiness and reliability.

Summary

AI-Generated Summary

PDF51May 21, 2025