노이즈에서 내러티브로: 트랜스포머의 환각 현상 기원 추적하기
From Noise to Narrative: Tracing the Origins of Hallucinations in Transformers
September 8, 2025
저자: Praneet Suresh, Jack Stanley, Sonia Joseph, Luca Scimeca, Danilo Bzdok
cs.AI
초록
생성형 AI 시스템이 과학, 비즈니스, 정부 분야에서 역량을 갖추고 보편화됨에 따라, 이들의 실패 모드에 대한 보다 깊은 통찰이 시급한 필요로 대두되고 있습니다. 트랜스포머 모델이 환각(hallucination)을 일으키는 경향과 같은 이들의 간헐적인 불안정성은 고위험 영역에서의 신규 AI 솔루션에 대한 신뢰와 채택을 저해합니다. 본 연구에서는 실험적으로 통제된 입력 공간의 불확실성 시나리오 하에서, 희소 오토인코더(sparse autoencoder)에 의해 포착된 개념 표현을 통해 사전 학습된 트랜스포머 모델에서 환각이 어떻게 그리고 언제 발생하는지를 규명합니다. 우리의 체계적인 실험은 입력 정보가 점점 더 비구조화될수록 트랜스포머 모델이 사용하는 의미론적 개념의 수가 증가함을 보여줍니다. 입력 공간의 불확실성이 증가함에 따라, 트랜스포머 모델은 일관성 있지만 입력에 둔감한 의미론적 특징을 활성화하기 쉬워져, 환각된 출력을 초래합니다. 극단적으로 순수 노이즈 입력의 경우, 우리는 사전 학습된 트랜스포머 모델의 중간 활성화에서 강력하게 유발되고 의미 있는 다양한 개념들을 확인하였으며, 이들의 기능적 무결성을 표적 조정(targeted steering)을 통해 검증하였습니다. 또한 트랜스포머 모델의 출력에서 발생하는 환각은 트랜스포머 계층 활성화에 내재된 개념 패턴으로부터 신뢰성 있게 예측될 수 있음을 보여줍니다. 트랜스포머의 내부 처리 메커니즘에 대한 이러한 통찰의 집합은 AI 모델을 인간의 가치에 정렬시키는 것, AI 안전성, 잠재적 적대적 공격(adversarial attack)에 대한 공격 표면 개방, 그리고 모델의 환각 위험을 자동으로 정량화하는 기반을 제공하는 데 즉각적인 영향을 미칩니다.
English
As generative AI systems become competent and democratized in science,
business, and government, deeper insight into their failure modes now poses an
acute need. The occasional volatility in their behavior, such as the propensity
of transformer models to hallucinate, impedes trust and adoption of emerging AI
solutions in high-stakes areas. In the present work, we establish how and when
hallucinations arise in pre-trained transformer models through concept
representations captured by sparse autoencoders, under scenarios with
experimentally controlled uncertainty in the input space. Our systematic
experiments reveal that the number of semantic concepts used by the transformer
model grows as the input information becomes increasingly unstructured. In the
face of growing uncertainty in the input space, the transformer model becomes
prone to activate coherent yet input-insensitive semantic features, leading to
hallucinated output. At its extreme, for pure-noise inputs, we identify a wide
variety of robustly triggered and meaningful concepts in the intermediate
activations of pre-trained transformer models, whose functional integrity we
confirm through targeted steering. We also show that hallucinations in the
output of a transformer model can be reliably predicted from the concept
patterns embedded in transformer layer activations. This collection of insights
on transformer internal processing mechanics has immediate consequences for
aligning AI models with human values, AI safety, opening the attack surface for
potential adversarial attacks, and providing a basis for automatic
quantification of a model's hallucination risk.