Allineamento delle Fonti Affidabili nei Modelli Linguistici di Grande Scala

Abstract

I grandi modelli linguistici (LLM) vengono addestrati su corpora di scala web che inevitabilmente includono informazioni fattuali contraddittorie provenienti da fonti di affidabilità variabile. In questo articolo, proponiamo di misurare una proprietà degli LLM chiamata allineamento alle fonti attendibili (Trusted Source Alignment, TSA): la propensione del modello ad allinearsi con i contenuti prodotti da editori attendibili in caso di incertezza o controversia. Presentiamo FactCheckQA, un dataset di valutazione TSA basato su un corpus di articoli di fact-checking. Descriviamo un protocollo semplice per valutare la TSA e offriamo un'analisi dettagliata delle considerazioni progettuali, tra cui l'estrazione delle risposte, la contestualizzazione delle affermazioni e i bias nella formulazione dei prompt. Applicando il protocollo a PaLM-2, scopriamo che, aumentando la dimensione del modello, le prestazioni su FactCheckQA migliorano da un livello quasi casuale fino a un'accuratezza bilanciata dell'80% nell'allineamento con le fonti attendibili.

English

Large language models (LLMs) are trained on web-scale corpora that inevitably include contradictory factual information from sources of varying reliability. In this paper, we propose measuring an LLM property called trusted source alignment (TSA): the model's propensity to align with content produced by trusted publishers in the face of uncertainty or controversy. We present FactCheckQA, a TSA evaluation dataset based on a corpus of fact checking articles. We describe a simple protocol for evaluating TSA and offer a detailed analysis of design considerations including response extraction, claim contextualization, and bias in prompt formulation. Applying the protocol to PaLM-2, we find that as we scale up the model size, the model performance on FactCheckQA improves from near-random to up to 80% balanced accuracy in aligning with trusted sources.

Allineamento delle Fonti Affidabili nei Modelli Linguistici di Grande Scala

Trusted Source Alignment in Large Language Models

Abstract

Support