Del ruido a la narrativa: Rastreando los orígenes de las alucinaciones en los Transformers

Resumen

A medida que los sistemas de IA generativa se vuelven competentes y se democratizan en la ciencia, los negocios y el gobierno, obtener una comprensión más profunda de sus modos de fallo se ha convertido en una necesidad urgente. La volatilidad ocasional en su comportamiento, como la propensión de los modelos transformadores a alucinar, dificulta la confianza y la adopción de soluciones emergentes de IA en áreas de alto riesgo. En el presente trabajo, establecemos cómo y cuándo surgen las alucinaciones en modelos transformadores preentrenados a través de representaciones de conceptos capturadas por autoencoders dispersos, en escenarios con incertidumbre controlada experimentalmente en el espacio de entrada. Nuestros experimentos sistemáticos revelan que el número de conceptos semánticos utilizados por el modelo transformador aumenta a medida que la información de entrada se vuelve cada vez más desestructurada. Ante una creciente incertidumbre en el espacio de entrada, el modelo transformador tiende a activar características semánticas coherentes pero insensibles a la entrada, lo que conduce a una salida alucinada. En su extremo, para entradas de ruido puro, identificamos una amplia variedad de conceptos significativos y robustamente activados en las activaciones intermedias de modelos transformadores preentrenados, cuya integridad funcional confirmamos mediante direccionamiento específico. También demostramos que las alucinaciones en la salida de un modelo transformador pueden predecirse de manera confiable a partir de los patrones de conceptos incrustados en las activaciones de las capas del transformador. Esta colección de hallazgos sobre la mecánica interna de procesamiento de los transformadores tiene consecuencias inmediatas para alinear los modelos de IA con los valores humanos, la seguridad de la IA, la exposición de la superficie de ataque para posibles ataques adversarios y la provisión de una base para la cuantificación automática del riesgo de alucinación de un modelo.

English

As generative AI systems become competent and democratized in science, business, and government, deeper insight into their failure modes now poses an acute need. The occasional volatility in their behavior, such as the propensity of transformer models to hallucinate, impedes trust and adoption of emerging AI solutions in high-stakes areas. In the present work, we establish how and when hallucinations arise in pre-trained transformer models through concept representations captured by sparse autoencoders, under scenarios with experimentally controlled uncertainty in the input space. Our systematic experiments reveal that the number of semantic concepts used by the transformer model grows as the input information becomes increasingly unstructured. In the face of growing uncertainty in the input space, the transformer model becomes prone to activate coherent yet input-insensitive semantic features, leading to hallucinated output. At its extreme, for pure-noise inputs, we identify a wide variety of robustly triggered and meaningful concepts in the intermediate activations of pre-trained transformer models, whose functional integrity we confirm through targeted steering. We also show that hallucinations in the output of a transformer model can be reliably predicted from the concept patterns embedded in transformer layer activations. This collection of insights on transformer internal processing mechanics has immediate consequences for aligning AI models with human values, AI safety, opening the attack surface for potential adversarial attacks, and providing a basis for automatic quantification of a model's hallucination risk.

Del ruido a la narrativa: Rastreando los orígenes de las alucinaciones en los Transformers

From Noise to Narrative: Tracing the Origins of Hallucinations in Transformers

Resumen

Support