Ajuste Fino de Modelos de Linguagem para Factualidade
Fine-tuning Language Models for Factuality
November 14, 2023
Autores: Katherine Tian, Eric Mitchell, Huaxiu Yao, Christopher D. Manning, Chelsea Finn
cs.AI
Resumo
A fluência e criatividade dos grandes modelos de linguagem pré-treinados (LLMs) levaram ao seu uso generalizado, às vezes até como substitutos para os mecanismos de busca tradicionais. No entanto, os modelos de linguagem tendem a fazer afirmações convincentes, mas factualmente imprecisas, frequentemente chamadas de 'alucinações'. Esses erros podem, inadvertidamente, espalhar desinformação ou perpetuar concepções errôneas de forma prejudicial. Além disso, a verificação manual de fatos nas respostas dos modelos é um processo demorado, tornando os rótulos de factualidade humana caros de obter. Neste trabalho, ajustamos modelos de linguagem para serem mais factuais, sem a necessidade de rotulagem humana e visando configurações de geração mais abertas do que trabalhos anteriores. Para isso, aproveitamos duas inovações recentes fundamentais em PLN. Primeiro, vários trabalhos recentes propuseram métodos para julgar a factualidade de textos abertos, medindo a consistência com uma base de conhecimento externa ou simplesmente as pontuações de confiança de um modelo grande. Segundo, o algoritmo de otimização de preferência direta permite o ajuste fino direto de modelos de linguagem em objetivos que não sejam a imitação supervisionada, utilizando uma classificação de preferência sobre possíveis respostas do modelo. Mostramos que aprender a partir de classificações de preferência de factualidade geradas automaticamente, seja por meio de sistemas de recuperação existentes ou de nossa nova abordagem sem recuperação, melhora significativamente a factualidade (percentual de afirmações geradas que estão corretas) do Llama-2 em tópicos retidos, em comparação com RLHF ou estratégias de decodificação voltadas para factualidade. Em escala de 7B, em comparação com o Llama-2-chat, observamos uma redução de 58% e 40% na taxa de erros factuais ao gerar biografias e responder a perguntas médicas, respectivamente.
English
The fluency and creativity of large pre-trained language models (LLMs) have
led to their widespread use, sometimes even as a replacement for traditional
search engines. Yet language models are prone to making convincing but
factually inaccurate claims, often referred to as 'hallucinations.' These
errors can inadvertently spread misinformation or harmfully perpetuate
misconceptions. Further, manual fact-checking of model responses is a
time-consuming process, making human factuality labels expensive to acquire. In
this work, we fine-tune language models to be more factual, without human
labeling and targeting more open-ended generation settings than past work. We
leverage two key recent innovations in NLP to do so. First, several recent
works have proposed methods for judging the factuality of open-ended text by
measuring consistency with an external knowledge base or simply a large model's
confidence scores. Second, the direct preference optimization algorithm enables
straightforward fine-tuning of language models on objectives other than
supervised imitation, using a preference ranking over possible model responses.
We show that learning from automatically generated factuality preference
rankings, generated either through existing retrieval systems or our novel
retrieval-free approach, significantly improves the factuality (percent of
generated claims that are correct) of Llama-2 on held-out topics compared with
RLHF or decoding strategies targeted at factuality. At 7B scale, compared to
Llama-2-chat, we observe 58% and 40% reduction in factual error rate when
generating biographies and answering medical questions, respectively.