Do Ruído à Narrativa: Rastreando as Origens das Alucinações em Transformers
From Noise to Narrative: Tracing the Origins of Hallucinations in Transformers
September 8, 2025
Autores: Praneet Suresh, Jack Stanley, Sonia Joseph, Luca Scimeca, Danilo Bzdok
cs.AI
Resumo
À medida que os sistemas de IA generativa se tornam competentes e democratizados na ciência, nos negócios e no governo, uma compreensão mais profunda de seus modos de falha agora representa uma necessidade urgente. A volatilidade ocasional em seu comportamento, como a propensão dos modelos transformadores a alucinar, dificulta a confiança e a adoção de soluções emergentes de IA em áreas de alto risco. No presente trabalho, estabelecemos como e quando as alucinações surgem em modelos transformadores pré-treinados por meio de representações de conceitos capturadas por autoencoders esparsos, em cenários com incerteza experimentalmente controlada no espaço de entrada. Nossos experimentos sistemáticos revelam que o número de conceitos semânticos utilizados pelo modelo transformador aumenta à medida que a informação de entrada se torna cada vez mais desestruturada. Diante do aumento da incerteza no espaço de entrada, o modelo transformador torna-se propenso a ativar características semânticas coerentes, mas insensíveis à entrada, levando a uma saída alucinada. No extremo, para entradas de ruído puro, identificamos uma grande variedade de conceitos robustamente acionados e significativos nas ativações intermediárias de modelos transformadores pré-treinados, cuja integridade funcional confirmamos por meio de direcionamento específico. Também mostramos que as alucinações na saída de um modelo transformador podem ser previstas de forma confiável a partir dos padrões de conceitos incorporados nas ativações das camadas do transformador. Esse conjunto de insights sobre a mecânica interna de processamento dos transformadores tem consequências imediatas para o alinhamento de modelos de IA com valores humanos, a segurança da IA, a abertura da superfície de ataque para possíveis ataques adversariais e a base para a quantificação automática do risco de alucinação de um modelo.
English
As generative AI systems become competent and democratized in science,
business, and government, deeper insight into their failure modes now poses an
acute need. The occasional volatility in their behavior, such as the propensity
of transformer models to hallucinate, impedes trust and adoption of emerging AI
solutions in high-stakes areas. In the present work, we establish how and when
hallucinations arise in pre-trained transformer models through concept
representations captured by sparse autoencoders, under scenarios with
experimentally controlled uncertainty in the input space. Our systematic
experiments reveal that the number of semantic concepts used by the transformer
model grows as the input information becomes increasingly unstructured. In the
face of growing uncertainty in the input space, the transformer model becomes
prone to activate coherent yet input-insensitive semantic features, leading to
hallucinated output. At its extreme, for pure-noise inputs, we identify a wide
variety of robustly triggered and meaningful concepts in the intermediate
activations of pre-trained transformer models, whose functional integrity we
confirm through targeted steering. We also show that hallucinations in the
output of a transformer model can be reliably predicted from the concept
patterns embedded in transformer layer activations. This collection of insights
on transformer internal processing mechanics has immediate consequences for
aligning AI models with human values, AI safety, opening the attack surface for
potential adversarial attacks, and providing a basis for automatic
quantification of a model's hallucination risk.