Выравнивание доверенных источников в больших языковых моделях
Trusted Source Alignment in Large Language Models
November 12, 2023
Авторы: Vasilisa Bashlovkina, Zhaobin Kuang, Riley Matthews, Edward Clifford, Yennie Jun, William W. Cohen, Simon Baumgartner
cs.AI
Аннотация
Крупные языковые модели (LLM) обучаются на корпусах веб-масштаба, которые неизбежно содержат противоречивую фактическую информацию из источников разной степени надежности. В данной статье мы предлагаем измерять свойство LLM, называемое согласованностью с доверенными источниками (Trusted Source Alignment, TSA): склонность модели согласовываться с контентом, созданным авторитетными издательствами, в условиях неопределенности или противоречий. Мы представляем FactCheckQA — набор данных для оценки TSA, основанный на корпусе статей с проверкой фактов. Мы описываем простой протокол для оценки TSA и предлагаем детальный анализ аспектов проектирования, включая извлечение ответов, контекстуализацию утверждений и предвзятость в формулировке запросов. Применяя протокол к модели PaLM-2, мы обнаруживаем, что с увеличением размера модели производительность на FactCheckQA улучшается от почти случайной до 80% сбалансированной точности в согласовании с доверенными источниками.
English
Large language models (LLMs) are trained on web-scale corpora that inevitably
include contradictory factual information from sources of varying reliability.
In this paper, we propose measuring an LLM property called trusted source
alignment (TSA): the model's propensity to align with content produced by
trusted publishers in the face of uncertainty or controversy. We present
FactCheckQA, a TSA evaluation dataset based on a corpus of fact checking
articles. We describe a simple protocol for evaluating TSA and offer a detailed
analysis of design considerations including response extraction, claim
contextualization, and bias in prompt formulation. Applying the protocol to
PaLM-2, we find that as we scale up the model size, the model performance on
FactCheckQA improves from near-random to up to 80% balanced accuracy in
aligning with trusted sources.