От шума к повествованию: отслеживание истоков галлюцинаций в трансформерах
From Noise to Narrative: Tracing the Origins of Hallucinations in Transformers
September 8, 2025
Авторы: Praneet Suresh, Jack Stanley, Sonia Joseph, Luca Scimeca, Danilo Bzdok
cs.AI
Аннотация
По мере того как генеративные системы ИИ становятся более компетентными и доступными в науке, бизнесе и государственном управлении, возникает острая необходимость в более глубоком понимании их режимов сбоев. Периодическая нестабильность в их поведении, например, склонность трансформерных моделей к галлюцинациям, препятствует доверию и внедрению новых решений ИИ в областях с высокими рисками. В данной работе мы исследуем, как и когда возникают галлюцинации в предобученных трансформерных моделях, используя концептуальные представления, извлеченные с помощью разреженных автокодировщиков, в условиях экспериментально контролируемой неопределенности входного пространства. Наши систематические эксперименты показывают, что количество семантических концепций, используемых трансформерной моделью, увеличивается по мере того, как входная информация становится все более неструктурированной. При возрастающей неопределенности входного пространства трансформерная модель становится склонной активировать связные, но нечувствительные к входным данным семантические признаки, что приводит к галлюцинированному выводу. В крайних случаях, для входных данных, состоящих из чистого шума, мы выявляем широкий спектр устойчиво активируемых и значимых концепций в промежуточных активациях предобученных трансформерных моделей, функциональную целостность которых мы подтверждаем с помощью целенаправленного управления. Мы также показываем, что галлюцинации в выходных данных трансформерной модели можно надежно предсказать на основе паттернов концепций, встроенных в активации слоев трансформера. Этот набор инсайтов о внутренней механике обработки данных в трансформерах имеет непосредственные последствия для согласования моделей ИИ с человеческими ценностями, обеспечения безопасности ИИ, открытия поверхности для потенциальных атак со стороны злоумышленников и предоставления основы для автоматической количественной оценки риска галлюцинаций модели.
English
As generative AI systems become competent and democratized in science,
business, and government, deeper insight into their failure modes now poses an
acute need. The occasional volatility in their behavior, such as the propensity
of transformer models to hallucinate, impedes trust and adoption of emerging AI
solutions in high-stakes areas. In the present work, we establish how and when
hallucinations arise in pre-trained transformer models through concept
representations captured by sparse autoencoders, under scenarios with
experimentally controlled uncertainty in the input space. Our systematic
experiments reveal that the number of semantic concepts used by the transformer
model grows as the input information becomes increasingly unstructured. In the
face of growing uncertainty in the input space, the transformer model becomes
prone to activate coherent yet input-insensitive semantic features, leading to
hallucinated output. At its extreme, for pure-noise inputs, we identify a wide
variety of robustly triggered and meaningful concepts in the intermediate
activations of pre-trained transformer models, whose functional integrity we
confirm through targeted steering. We also show that hallucinations in the
output of a transformer model can be reliably predicted from the concept
patterns embedded in transformer layer activations. This collection of insights
on transformer internal processing mechanics has immediate consequences for
aligning AI models with human values, AI safety, opening the attack surface for
potential adversarial attacks, and providing a basis for automatic
quantification of a model's hallucination risk.