Alinhamento de Fontes Confiáveis em Modelos de Linguagem de Grande Escala
Trusted Source Alignment in Large Language Models
November 12, 2023
Autores: Vasilisa Bashlovkina, Zhaobin Kuang, Riley Matthews, Edward Clifford, Yennie Jun, William W. Cohen, Simon Baumgartner
cs.AI
Resumo
Modelos de linguagem de grande escala (LLMs) são treinados em corpora de escala web que inevitavelmente incluem informações factuais contraditórias provenientes de fontes com diferentes níveis de confiabilidade. Neste artigo, propomos medir uma propriedade dos LLMs chamada alinhamento com fontes confiáveis (TSA, na sigla em inglês): a propensão do modelo em se alinhar com conteúdo produzido por publicações confiáveis diante de incerteza ou controvérsia. Apresentamos o FactCheckQA, um conjunto de dados de avaliação de TSA baseado em um corpus de artigos de verificação de fatos. Descrevemos um protocolo simples para avaliar o TSA e oferecemos uma análise detalhada de considerações de design, incluindo extração de respostas, contextualização de afirmações e viés na formulação de prompts. Aplicando o protocolo ao PaLM-2, descobrimos que, à medida que aumentamos o tamanho do modelo, o desempenho no FactCheckQA melhora de uma precisão balanceada próxima ao acaso para até 80% no alinhamento com fontes confiáveis.
English
Large language models (LLMs) are trained on web-scale corpora that inevitably
include contradictory factual information from sources of varying reliability.
In this paper, we propose measuring an LLM property called trusted source
alignment (TSA): the model's propensity to align with content produced by
trusted publishers in the face of uncertainty or controversy. We present
FactCheckQA, a TSA evaluation dataset based on a corpus of fact checking
articles. We describe a simple protocol for evaluating TSA and offer a detailed
analysis of design considerations including response extraction, claim
contextualization, and bias in prompt formulation. Applying the protocol to
PaLM-2, we find that as we scale up the model size, the model performance on
FactCheckQA improves from near-random to up to 80% balanced accuracy in
aligning with trusted sources.