Ajuste fino de modelos de lenguaje para factualidad
Fine-tuning Language Models for Factuality
November 14, 2023
Autores: Katherine Tian, Eric Mitchell, Huaxiu Yao, Christopher D. Manning, Chelsea Finn
cs.AI
Resumen
La fluidez y creatividad de los grandes modelos de lenguaje preentrenados (LLMs, por sus siglas en inglés) han llevado a su uso generalizado, a veces incluso como reemplazo de los motores de búsqueda tradicionales. Sin embargo, los modelos de lenguaje tienden a hacer afirmaciones convincentes pero factualmente inexactas, a menudo denominadas 'alucinaciones'. Estos errores pueden propagar involuntariamente desinformación o perpetuar nociones erróneas de manera perjudicial. Además, la verificación manual de las respuestas del modelo es un proceso que consume mucho tiempo, lo que hace que las etiquetas de veracidad humana sean costosas de obtener. En este trabajo, ajustamos los modelos de lenguaje para que sean más precisos, sin necesidad de etiquetado humano y enfocándonos en entornos de generación más abiertos que en trabajos anteriores. Para ello, aprovechamos dos innovaciones recientes clave en el procesamiento del lenguaje natural (NLP). En primer lugar, varios trabajos recientes han propuesto métodos para juzgar la veracidad de textos abiertos midiendo su consistencia con una base de conocimiento externa o simplemente utilizando las puntuaciones de confianza de un modelo grande. En segundo lugar, el algoritmo de optimización de preferencias directas permite ajustar fácilmente los modelos de lenguaje en objetivos distintos a la imitación supervisada, utilizando una clasificación de preferencias sobre las posibles respuestas del modelo. Demostramos que aprender a partir de clasificaciones de preferencias de veracidad generadas automáticamente, ya sea mediante sistemas de recuperación existentes o nuestro novedoso enfoque sin recuperación, mejora significativamente la precisión (porcentaje de afirmaciones generadas que son correctas) de Llama-2 en temas no vistos, en comparación con RLHF o estrategias de decodificación enfocadas en la veracidad. A escala de 7B, en comparación con Llama-2-chat, observamos una reducción del 58% y 40% en la tasa de errores factuales al generar biografías y responder preguntas médicas, respectivamente.
English
The fluency and creativity of large pre-trained language models (LLMs) have
led to their widespread use, sometimes even as a replacement for traditional
search engines. Yet language models are prone to making convincing but
factually inaccurate claims, often referred to as 'hallucinations.' These
errors can inadvertently spread misinformation or harmfully perpetuate
misconceptions. Further, manual fact-checking of model responses is a
time-consuming process, making human factuality labels expensive to acquire. In
this work, we fine-tune language models to be more factual, without human
labeling and targeting more open-ended generation settings than past work. We
leverage two key recent innovations in NLP to do so. First, several recent
works have proposed methods for judging the factuality of open-ended text by
measuring consistency with an external knowledge base or simply a large model's
confidence scores. Second, the direct preference optimization algorithm enables
straightforward fine-tuning of language models on objectives other than
supervised imitation, using a preference ranking over possible model responses.
We show that learning from automatically generated factuality preference
rankings, generated either through existing retrieval systems or our novel
retrieval-free approach, significantly improves the factuality (percent of
generated claims that are correct) of Llama-2 on held-out topics compared with
RLHF or decoding strategies targeted at factuality. At 7B scale, compared to
Llama-2-chat, we observe 58% and 40% reduction in factual error rate when
generating biographies and answering medical questions, respectively.