Ich weiß es nicht: Explizites Modellieren von Unsicherheit mit einem [IDK]-Token.
I Don't Know: Explicit Modeling of Uncertainty with an [IDK] Token
December 9, 2024
Autoren: Roi Cohen, Konstantin Dobler, Eden Biran, Gerard de Melo
cs.AI
Zusammenfassung
Große Sprachmodelle sind bekannt dafür, realweltliches Wissen zu erfassen, was es ihnen ermöglicht, in vielen nachgelagerten Aufgaben herausragende Leistungen zu erbringen. Trotz jüngster Fortschritte sind diese Modelle immer noch anfällig für das, was allgemein als Halluzinationen bekannt ist, was dazu führt, dass sie unerwünschten und faktisch inkorrekten Text ausgeben. In dieser Arbeit schlagen wir eine neuartige Kalibrierungsmethode vor, die zur Bekämpfung von Halluzinationen eingesetzt werden kann. Wir fügen dem Vokabular des Modells ein spezielles "[IDK]" ("Ich weiß es nicht")-Token hinzu und führen eine Zielgrößenfunktion ein, die die Wahrscheinlichkeitsmasse für falsche Vorhersagen auf das [IDK]-Token verschiebt. Dieser Ansatz ermöglicht es dem Modell, Unsicherheit in seiner Ausgabe explizit auszudrücken. Wir evaluieren unsere vorgeschlagene Methode über mehrere Modellarchitekturen und faktische nachgelagerte Aufgaben. Wir stellen fest, dass Modelle, die mit unserer Methode trainiert wurden, in der Lage sind, Unsicherheit an Stellen auszudrücken, an denen sie zuvor Fehler gemacht hätten, während sie nur einen geringen Verlust an kodiertem Wissen erleiden. Darüber hinaus führen wir umfangreiche Ablationsstudien mehrerer Variationen unseres Ansatzes durch und liefern eine detaillierte Analyse des Präzision-Wiederuf-Verhältnisses unserer Methode.
English
Large Language Models are known to capture real-world knowledge, allowing
them to excel in many downstream tasks. Despite recent advances, these models
are still prone to what are commonly known as hallucinations, causing them to
emit unwanted and factually incorrect text. In this work, we propose a novel
calibration method that can be used to combat hallucinations. We add a special
[IDK] ("I don't know") token to the model's vocabulary and introduce an
objective function that shifts probability mass to the [IDK] token for
incorrect predictions. This approach allows the model to express uncertainty in
its output explicitly. We evaluate our proposed method across multiple model
architectures and factual downstream tasks. We find that models trained with
our method are able to express uncertainty in places where they would
previously make mistakes while suffering only a small loss of encoded
knowledge. We further perform extensive ablation studies of multiple variations
of our approach and provide a detailed analysis of the precision-recall
tradeoff of our method.Summary
AI-Generated Summary