Allineamento delle Fonti Affidabili nei Modelli Linguistici di Grande Scala
Trusted Source Alignment in Large Language Models
November 12, 2023
Autori: Vasilisa Bashlovkina, Zhaobin Kuang, Riley Matthews, Edward Clifford, Yennie Jun, William W. Cohen, Simon Baumgartner
cs.AI
Abstract
I grandi modelli linguistici (LLM) vengono addestrati su corpora di scala web che inevitabilmente includono informazioni fattuali contraddittorie provenienti da fonti di affidabilità variabile. In questo articolo, proponiamo di misurare una proprietà degli LLM chiamata allineamento alle fonti attendibili (Trusted Source Alignment, TSA): la propensione del modello ad allinearsi con i contenuti prodotti da editori attendibili in caso di incertezza o controversia. Presentiamo FactCheckQA, un dataset di valutazione TSA basato su un corpus di articoli di fact-checking. Descriviamo un protocollo semplice per valutare la TSA e offriamo un'analisi dettagliata delle considerazioni progettuali, tra cui l'estrazione delle risposte, la contestualizzazione delle affermazioni e i bias nella formulazione dei prompt. Applicando il protocollo a PaLM-2, scopriamo che, aumentando la dimensione del modello, le prestazioni su FactCheckQA migliorano da un livello quasi casuale fino a un'accuratezza bilanciata dell'80% nell'allineamento con le fonti attendibili.
English
Large language models (LLMs) are trained on web-scale corpora that inevitably
include contradictory factual information from sources of varying reliability.
In this paper, we propose measuring an LLM property called trusted source
alignment (TSA): the model's propensity to align with content produced by
trusted publishers in the face of uncertainty or controversy. We present
FactCheckQA, a TSA evaluation dataset based on a corpus of fact checking
articles. We describe a simple protocol for evaluating TSA and offer a detailed
analysis of design considerations including response extraction, claim
contextualization, and bias in prompt formulation. Applying the protocol to
PaLM-2, we find that as we scale up the model size, the model performance on
FactCheckQA improves from near-random to up to 80% balanced accuracy in
aligning with trusted sources.