Del ruido a la narrativa: Rastreando los orígenes de las alucinaciones en los Transformers
From Noise to Narrative: Tracing the Origins of Hallucinations in Transformers
September 8, 2025
Autores: Praneet Suresh, Jack Stanley, Sonia Joseph, Luca Scimeca, Danilo Bzdok
cs.AI
Resumen
A medida que los sistemas de IA generativa se vuelven competentes y se democratizan en la ciencia, los negocios y el gobierno, obtener una comprensión más profunda de sus modos de fallo se ha convertido en una necesidad urgente. La volatilidad ocasional en su comportamiento, como la propensión de los modelos transformadores a alucinar, dificulta la confianza y la adopción de soluciones emergentes de IA en áreas de alto riesgo. En el presente trabajo, establecemos cómo y cuándo surgen las alucinaciones en modelos transformadores preentrenados a través de representaciones de conceptos capturadas por autoencoders dispersos, en escenarios con incertidumbre controlada experimentalmente en el espacio de entrada. Nuestros experimentos sistemáticos revelan que el número de conceptos semánticos utilizados por el modelo transformador aumenta a medida que la información de entrada se vuelve cada vez más desestructurada. Ante una creciente incertidumbre en el espacio de entrada, el modelo transformador tiende a activar características semánticas coherentes pero insensibles a la entrada, lo que conduce a una salida alucinada. En su extremo, para entradas de ruido puro, identificamos una amplia variedad de conceptos significativos y robustamente activados en las activaciones intermedias de modelos transformadores preentrenados, cuya integridad funcional confirmamos mediante direccionamiento específico. También demostramos que las alucinaciones en la salida de un modelo transformador pueden predecirse de manera confiable a partir de los patrones de conceptos incrustados en las activaciones de las capas del transformador. Esta colección de hallazgos sobre la mecánica interna de procesamiento de los transformadores tiene consecuencias inmediatas para alinear los modelos de IA con los valores humanos, la seguridad de la IA, la exposición de la superficie de ataque para posibles ataques adversarios y la provisión de una base para la cuantificación automática del riesgo de alucinación de un modelo.
English
As generative AI systems become competent and democratized in science,
business, and government, deeper insight into their failure modes now poses an
acute need. The occasional volatility in their behavior, such as the propensity
of transformer models to hallucinate, impedes trust and adoption of emerging AI
solutions in high-stakes areas. In the present work, we establish how and when
hallucinations arise in pre-trained transformer models through concept
representations captured by sparse autoencoders, under scenarios with
experimentally controlled uncertainty in the input space. Our systematic
experiments reveal that the number of semantic concepts used by the transformer
model grows as the input information becomes increasingly unstructured. In the
face of growing uncertainty in the input space, the transformer model becomes
prone to activate coherent yet input-insensitive semantic features, leading to
hallucinated output. At its extreme, for pure-noise inputs, we identify a wide
variety of robustly triggered and meaningful concepts in the intermediate
activations of pre-trained transformer models, whose functional integrity we
confirm through targeted steering. We also show that hallucinations in the
output of a transformer model can be reliably predicted from the concept
patterns embedded in transformer layer activations. This collection of insights
on transformer internal processing mechanics has immediate consequences for
aligning AI models with human values, AI safety, opening the attack surface for
potential adversarial attacks, and providing a basis for automatic
quantification of a model's hallucination risk.