不確実性の明示的モデリング:[IDK] トークンを用いた方法
I Don't Know: Explicit Modeling of Uncertainty with an [IDK] Token
December 9, 2024
著者: Roi Cohen, Konstantin Dobler, Eden Biran, Gerard de Melo
cs.AI
要旨
大規模言語モデルは、実世界の知識を捉えることで知られており、多くの下流タスクで優れた成績を収めることができます。最近の進歩にもかかわらず、これらのモデルは依然として幻覚として一般的に知られるものに陥りやすく、望ましくない事実と異なるテキストを生成することがあります。本研究では、幻覚に対抗するために使用できる新しい較正方法を提案します。モデルの語彙に特別な「わからない」トークン([IDK])を追加し、不正確な予測に対して確率質量を[IDK]トークンにシフトする目的関数を導入します。このアプローチにより、モデルは出力に不確実性を明示的に表現することができます。提案された方法を複数のモデルアーキテクチャと事実に基づく下流タスク全体で評価します。提案された方法でトレーニングされたモデルは、以前は誤りを犯す場所で不確実性を表現することができ、エンコードされた知識のわずかな損失のみが発生します。さらに、提案されたアプローチの複数のバリエーションについて包括的な削除研究を実施し、提案された方法の適合率と再現率のトレードオフについて詳細な分析を提供します。
English
Large Language Models are known to capture real-world knowledge, allowing
them to excel in many downstream tasks. Despite recent advances, these models
are still prone to what are commonly known as hallucinations, causing them to
emit unwanted and factually incorrect text. In this work, we propose a novel
calibration method that can be used to combat hallucinations. We add a special
[IDK] ("I don't know") token to the model's vocabulary and introduce an
objective function that shifts probability mass to the [IDK] token for
incorrect predictions. This approach allows the model to express uncertainty in
its output explicitly. We evaluate our proposed method across multiple model
architectures and factual downstream tasks. We find that models trained with
our method are able to express uncertainty in places where they would
previously make mistakes while suffering only a small loss of encoded
knowledge. We further perform extensive ablation studies of multiple variations
of our approach and provide a detailed analysis of the precision-recall
tradeoff of our method.Summary
AI-Generated Summary