No lo sé: Modelado explícito de la incertidumbre con un token [IDK]
I Don't Know: Explicit Modeling of Uncertainty with an [IDK] Token
December 9, 2024
Autores: Roi Cohen, Konstantin Dobler, Eden Biran, Gerard de Melo
cs.AI
Resumen
Se sabe que los Modelos de Lenguaje Grandes capturan conocimiento del mundo real, lo que les permite destacarse en muchas tareas secundarias. A pesar de los avances recientes, estos modelos aún son propensos a lo que comúnmente se conoce como alucinaciones, lo que les hace emitir texto no deseado e incorrecto desde el punto de vista factual. En este trabajo, proponemos un método de calibración novedoso que puede utilizarse para combatir las alucinaciones. Añadimos un token especial de "[IDK]" ("No lo sé") al vocabulario del modelo e introducimos una función objetivo que desplaza la masa de probabilidad hacia el token [IDK] para predicciones incorrectas. Este enfoque permite al modelo expresar su incertidumbre explícitamente en su salida. Evaluamos nuestro método propuesto en múltiples arquitecturas de modelos y tareas secundarias factuales. Descubrimos que los modelos entrenados con nuestro método pueden expresar incertidumbre en lugares donde previamente cometían errores, sufriendo solo una pequeña pérdida de conocimiento codificado. Además, realizamos extensos estudios de ablación de múltiples variaciones de nuestro enfoque y proporcionamos un análisis detallado del equilibrio precisión-recuperación de nuestro método.
English
Large Language Models are known to capture real-world knowledge, allowing
them to excel in many downstream tasks. Despite recent advances, these models
are still prone to what are commonly known as hallucinations, causing them to
emit unwanted and factually incorrect text. In this work, we propose a novel
calibration method that can be used to combat hallucinations. We add a special
[IDK] ("I don't know") token to the model's vocabulary and introduce an
objective function that shifts probability mass to the [IDK] token for
incorrect predictions. This approach allows the model to express uncertainty in
its output explicitly. We evaluate our proposed method across multiple model
architectures and factual downstream tasks. We find that models trained with
our method are able to express uncertainty in places where they would
previously make mistakes while suffering only a small loss of encoded
knowledge. We further perform extensive ablation studies of multiple variations
of our approach and provide a detailed analysis of the precision-recall
tradeoff of our method.Summary
AI-Generated Summary