Los Modelos de Lenguaje de Gran Escala NO Saben Realmente lo que No Saben
Large Language Models Do NOT Really Know What They Don't Know
October 10, 2025
Autores: Chi Seng Cheang, Hou Pong Chan, Wenxuan Zhang, Yang Deng
cs.AI
Resumen
Trabajos recientes sugieren que los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) codifican señales de factualidad en sus representaciones internas, como estados ocultos, pesos de atención o probabilidades de tokens, lo que implica que los LLMs podrían "saber lo que no saben". Sin embargo, los LLMs también pueden cometer errores factuales al depender de atajos o asociaciones espurias. Estos errores son impulsados por el mismo objetivo de entrenamiento que fomenta predicciones correctas, lo que plantea la cuestión de si los cálculos internos pueden distinguir de manera confiable entre salidas factuales y alucinadas. En este trabajo, realizamos un análisis mecanicista de cómo los LLMs procesan internamente consultas factuales al comparar dos tipos de alucinaciones basadas en su dependencia de la información del sujeto. Descubrimos que cuando las alucinaciones están asociadas con el conocimiento del sujeto, los LLMs emplean el mismo proceso de recuperación interna que para respuestas correctas, lo que resulta en geometrías de estados ocultos superpuestas e indistinguibles. En contraste, las alucinaciones desvinculadas del conocimiento del sujeto producen representaciones distintas y agrupadas que las hacen detectables. Estos hallazgos revelan una limitación fundamental: los LLMs no codifican la veracidad en sus estados internos, sino solo patrones de recuperación de conocimiento, demostrando que "los LLMs realmente no saben lo que no saben".
English
Recent work suggests that large language models (LLMs) encode factuality
signals in their internal representations, such as hidden states, attention
weights, or token probabilities, implying that LLMs may "know what they don't
know". However, LLMs can also produce factual errors by relying on shortcuts or
spurious associations. These error are driven by the same training objective
that encourage correct predictions, raising the question of whether internal
computations can reliably distinguish between factual and hallucinated outputs.
In this work, we conduct a mechanistic analysis of how LLMs internally process
factual queries by comparing two types of hallucinations based on their
reliance on subject information. We find that when hallucinations are
associated with subject knowledge, LLMs employ the same internal recall process
as for correct responses, leading to overlapping and indistinguishable
hidden-state geometries. In contrast, hallucinations detached from subject
knowledge produce distinct, clustered representations that make them
detectable. These findings reveal a fundamental limitation: LLMs do not encode
truthfulness in their internal states but only patterns of knowledge recall,
demonstrating that "LLMs don't really know what they don't know".