Ottimizzazione Fine-Tuning dei Modelli Linguistici per la Veridicità

Abstract

La fluidità e la creatività dei grandi modelli linguistici pre-addestrati (LLM) hanno portato al loro utilizzo diffuso, a volte persino come sostituti dei tradizionali motori di ricerca. Tuttavia, i modelli linguistici sono inclini a fare affermazioni convincenti ma fattualmente inesatte, spesso definite "allucinazioni". Questi errori possono diffondere involontariamente disinformazione o perpetuare dannosi equivoci. Inoltre, il controllo manuale dei fatti nelle risposte del modello è un processo che richiede tempo, rendendo costoso l'acquisizione di etichette di veridicità umane. In questo lavoro, ottimizziamo i modelli linguistici per essere più accurati, senza l'uso di etichette umane e puntando a contesti di generazione più aperti rispetto al passato. A tal fine, sfruttiamo due recenti innovazioni chiave nel campo dell'elaborazione del linguaggio naturale (NLP). In primo luogo, diversi lavori recenti hanno proposto metodi per valutare la veridicità di testi aperti misurando la coerenza con una base di conoscenza esterna o semplicemente i punteggi di confidenza di un grande modello. In secondo luogo, l'algoritmo di ottimizzazione diretta delle preferenze consente una semplice ottimizzazione dei modelli linguistici su obiettivi diversi dall'imitazione supervisionata, utilizzando una classifica delle preferenze sulle possibili risposte del modello. Dimostriamo che l'apprendimento da classifiche di preferenza di veridicità generate automaticamente, create tramite sistemi di recupero esistenti o il nostro nuovo approccio senza recupero, migliora significativamente la veridicità (percentuale di affermazioni generate corrette) di Llama-2 su argomenti non visti, rispetto a RLHF o strategie di decodifica mirate alla veridicità. Su scala 7B, rispetto a Llama-2-chat, osserviamo una riduzione del 58% e del 40% nel tasso di errori fattuali quando si generano biografie e si rispondono a domande mediche, rispettivamente.

English

The fluency and creativity of large pre-trained language models (LLMs) have led to their widespread use, sometimes even as a replacement for traditional search engines. Yet language models are prone to making convincing but factually inaccurate claims, often referred to as 'hallucinations.' These errors can inadvertently spread misinformation or harmfully perpetuate misconceptions. Further, manual fact-checking of model responses is a time-consuming process, making human factuality labels expensive to acquire. In this work, we fine-tune language models to be more factual, without human labeling and targeting more open-ended generation settings than past work. We leverage two key recent innovations in NLP to do so. First, several recent works have proposed methods for judging the factuality of open-ended text by measuring consistency with an external knowledge base or simply a large model's confidence scores. Second, the direct preference optimization algorithm enables straightforward fine-tuning of language models on objectives other than supervised imitation, using a preference ranking over possible model responses. We show that learning from automatically generated factuality preference rankings, generated either through existing retrieval systems or our novel retrieval-free approach, significantly improves the factuality (percent of generated claims that are correct) of Llama-2 on held-out topics compared with RLHF or decoding strategies targeted at factuality. At 7B scale, compared to Llama-2-chat, we observe 58% and 40% reduction in factual error rate when generating biographies and answering medical questions, respectively.

Ottimizzazione Fine-Tuning dei Modelli Linguistici per la Veridicità

Fine-tuning Language Models for Factuality

Abstract

Support