Нейроны истины
Truth Neurons
May 18, 2025
Авторы: Haohang Li, Yupeng Cao, Yangyang Yu, Jordan W. Suchow, Zining Zhu
cs.AI
Аннотация
Несмотря на их впечатляющий успех и применение в различных рабочих процессах, языковые модели иногда выдают недостоверные ответы. Наше ограниченное понимание того, как правдивость механистически закодирована в этих моделях, ставит под угрозу их надежность и безопасность. В данной статье мы предлагаем метод для идентификации представлений правдивости на уровне нейронов. Мы показываем, что языковые модели содержат "нейроны правдивости", которые кодируют правдивость независимо от темы. Эксперименты, проведенные на моделях различного масштаба, подтверждают существование таких нейронов, демонстрируя, что кодирование правдивости на уровне нейронов является свойством, присущим многим языковым моделям. Распределение нейронов правдивости по слоям согласуется с предыдущими исследованиями геометрии правдивости. Избирательное подавление активаций нейронов правдивости, обнаруженных с помощью набора данных TruthfulQA, ухудшает производительность как на TruthfulQA, так и на других тестовых наборах, что указывает на то, что механизмы правдивости не привязаны к конкретному набору данных. Наши результаты предлагают новые инсайты в механизмы, лежащие в основе правдивости в языковых моделях, и указывают потенциальные направления для повышения их доверия и надежности.
English
Despite their remarkable success and deployment across diverse workflows,
language models sometimes produce untruthful responses. Our limited
understanding of how truthfulness is mechanistically encoded within these
models jeopardizes their reliability and safety. In this paper, we propose a
method for identifying representations of truthfulness at the neuron level. We
show that language models contain truth neurons, which encode truthfulness in a
subject-agnostic manner. Experiments conducted across models of varying scales
validate the existence of truth neurons, confirming that the encoding of
truthfulness at the neuron level is a property shared by many language models.
The distribution patterns of truth neurons over layers align with prior
findings on the geometry of truthfulness. Selectively suppressing the
activations of truth neurons found through the TruthfulQA dataset degrades
performance both on TruthfulQA and on other benchmarks, showing that the
truthfulness mechanisms are not tied to a specific dataset. Our results offer
novel insights into the mechanisms underlying truthfulness in language models
and highlight potential directions toward improving their trustworthiness and
reliability.Summary
AI-Generated Summary