Персоны как способ моделирования правдивости в языковых моделях
Personas as a Way to Model Truthfulness in Language Models
October 27, 2023
Авторы: Nitish Joishi, Javier Rando, Abulhair Saparov, Najoung Kim, He He
cs.AI
Аннотация
Крупные языковые модели обучаются на огромных объемах текстов из интернета, которые содержат как достоверную, так и вводящую в заблуждение информацию о мире. Способны ли языковые модели отличать истину от лжи в этих противоречивых данных? Развивая идею о том, что LLM могут моделировать различных агентов, создающих корпусы текстов, мы выдвигаем гипотезу, что они могут группировать достоверные тексты, моделируя "достоверную персону": группу агентов, которые с высокой вероятностью создают правдивые тексты и обладают схожими характеристиками. Например, надежные источники, такие как Википедия и научные издания, обычно используют формальный стиль письма и делают последовательные утверждения. Моделируя такую персону, LLM могут обобщать достоверность за пределы конкретных контекстов, в которых каждый агент создавал обучающие тексты. Например, модель может сделать вывод, что агент "Википедия" будет правдив в темах, которые были созданы только агентом "Наука", поскольку они разделяют одну и ту же персону. Мы сначала демонстрируем доказательства гипотезы о персонах через два наблюдения: (1) мы можем проверить, будет ли ответ модели правдивым, до его генерации; (2) дообучение модели на наборе фактов повышает ее достоверность на неизвестных темах. Затем, используя арифметику как синтетическую среду, мы показываем, что языковые модели могут разделять истинные и ложные утверждения и обобщать достоверность между агентами, но только если агенты в обучающих данных разделяют правдивый генеративный процесс, который позволяет создать достоверную персону. В целом, наши результаты свидетельствуют о том, что модели могут использовать иерархические структуры в данных для изучения абстрактных концепций, таких как достоверность.
English
Large Language Models are trained on vast amounts of text from the internet,
which contains both factual and misleading information about the world. Can
language models discern truth from falsehood in this contradicting data?
Expanding on the view that LLMs can model different agents producing the
corpora, we hypothesize that they can cluster truthful text by modeling a
truthful persona: a group of agents that are likely to produce truthful text
and share similar features. For example, trustworthy sources like Wikipedia and
Science usually use formal writing styles and make consistent claims. By
modeling this persona, LLMs can generalize truthfulness beyond the specific
contexts in which each agent generated the training text. For example, the
model can infer that the agent "Wikipedia" will behave truthfully on topics
that were only generated by "Science" because they share a persona. We first
show evidence for the persona hypothesis via two observations: (1) we can probe
whether a model's answer will be truthful before it is generated; (2)
finetuning a model on a set of facts improves its truthfulness on unseen
topics. Next, using arithmetics as a synthetic environment, we show that
language models can separate true and false statements, and generalize
truthfulness across agents; but only if agents in the training data share a
truthful generative process that enables the creation of a truthful persona.
Overall, our findings suggest that models can exploit hierarchical structures
in the data to learn abstract concepts like truthfulness.