Я Не Знаю: Явное Моделирование Неопределенности с Помощью Токена [IDK]
I Don't Know: Explicit Modeling of Uncertainty with an [IDK] Token
December 9, 2024
Авторы: Roi Cohen, Konstantin Dobler, Eden Biran, Gerard de Melo
cs.AI
Аннотация
Большие языковые модели известны своей способностью улавливать знания о реальном мире, что позволяет им превосходно справляться с множеством последующих задач. Несмотря на недавние достижения, эти модели все еще подвержены так называемым галлюцинациям, из-за которых они могут выдавать нежелательный и фактически неверный текст. В данной работе мы предлагаем новый метод калибровки, который можно использовать для борьбы с галлюцинациями. Мы добавляем специальный токен [IDK] ("Я не знаю") в словарь модели и вводим целевую функцию, которая перераспределяет вероятностную массу на токен [IDK] для неверных предсказаний. Такой подход позволяет модели явно выражать неопределенность в своем выводе. Мы оцениваем предложенный метод на нескольких архитектурах моделей и фактических последующих задачах. Мы обнаружили, что модели, обученные с использованием нашего метода, способны выражать неопределенность в тех местах, где ранее допускали ошибки, при этом практически не теряя закодированных знаний. Мы также проводим обширные исследования абляции нескольких вариаций нашего подхода и предоставляем детальный анализ компромисса между точностью и полнотой нашего метода.
English
Large Language Models are known to capture real-world knowledge, allowing
them to excel in many downstream tasks. Despite recent advances, these models
are still prone to what are commonly known as hallucinations, causing them to
emit unwanted and factually incorrect text. In this work, we propose a novel
calibration method that can be used to combat hallucinations. We add a special
[IDK] ("I don't know") token to the model's vocabulary and introduce an
objective function that shifts probability mass to the [IDK] token for
incorrect predictions. This approach allows the model to express uncertainty in
its output explicitly. We evaluate our proposed method across multiple model
architectures and factual downstream tasks. We find that models trained with
our method are able to express uncertainty in places where they would
previously make mistakes while suffering only a small loss of encoded
knowledge. We further perform extensive ablation studies of multiple variations
of our approach and provide a detailed analysis of the precision-recall
tradeoff of our method.Summary
AI-Generated Summary