ChatPaper.aiChatPaper

진실 뉴런(Truth Neurons)

Truth Neurons

May 18, 2025
저자: Haohang Li, Yupeng Cao, Yangyang Yu, Jordan W. Suchow, Zining Zhu
cs.AI

초록

다양한 워크플로우에서 놀라운 성공을 거두고 널리 활용되고 있음에도 불구하고, 언어 모델은 때때로 진실되지 않은 응답을 생성합니다. 이러한 모델 내에서 진실성이 어떻게 기계적으로 인코딩되는지에 대한 우리의 제한된 이해는 그들의 신뢰성과 안전성을 위협합니다. 본 논문에서는 뉴런 수준에서 진실성의 표현을 식별하는 방법을 제안합니다. 우리는 언어 모델이 주제에 구애받지 않는 방식으로 진실성을 인코딩하는 '진실 뉴런(truth neurons)'을 포함하고 있음을 보여줍니다. 다양한 규모의 모델을 대상으로 수행한 실험은 진실 뉴런의 존재를 검증하며, 뉴런 수준에서의 진실성 인코딩이 많은 언어 모델이 공유하는 속성임을 확인합니다. 진실 뉴런의 계층별 분포 패턴은 진실성의 기하학에 대한 기존 연구 결과와 일치합니다. TruthfulQA 데이터셋을 통해 발견된 진실 뉴런의 활성화를 선택적으로 억제하면 TruthfulQA 및 다른 벤치마크에서의 성능이 저하되는데, 이는 진실성 메커니즘이 특정 데이터셋에 종속되지 않음을 보여줍니다. 우리의 연구 결과는 언어 모델의 진실성 메커니즘에 대한 새로운 통찰을 제공하며, 그들의 신뢰성과 신뢰도를 향상시킬 수 있는 잠재적 방향을 제시합니다.
English
Despite their remarkable success and deployment across diverse workflows, language models sometimes produce untruthful responses. Our limited understanding of how truthfulness is mechanistically encoded within these models jeopardizes their reliability and safety. In this paper, we propose a method for identifying representations of truthfulness at the neuron level. We show that language models contain truth neurons, which encode truthfulness in a subject-agnostic manner. Experiments conducted across models of varying scales validate the existence of truth neurons, confirming that the encoding of truthfulness at the neuron level is a property shared by many language models. The distribution patterns of truth neurons over layers align with prior findings on the geometry of truthfulness. Selectively suppressing the activations of truth neurons found through the TruthfulQA dataset degrades performance both on TruthfulQA and on other benchmarks, showing that the truthfulness mechanisms are not tied to a specific dataset. Our results offer novel insights into the mechanisms underlying truthfulness in language models and highlight potential directions toward improving their trustworthiness and reliability.
PDF82May 21, 2025