Mask-DPO: Alineación de Factualidad Fina y Generalizable en Modelos de Lenguaje de Gran Escala
Mask-DPO: Generalizable Fine-grained Factuality Alignment of LLMs
March 4, 2025
Autores: Yuzhe Gu, Wenwei Zhang, Chengqi Lyu, Dahua Lin, Kai Chen
cs.AI
Resumen
Los modelos de lenguaje de gran escala (LLMs) exhiben alucinaciones (es decir, información infiel o sin sentido) cuando actúan como asistentes de IA en diversos dominios. Dado que las alucinaciones siempre vienen acompañadas de contenido veraz en las respuestas de los LLMs, los métodos previos de alineación de factualidad que realizan aprendizaje de preferencias a nivel de respuesta inevitablemente introdujeron ruido durante el entrenamiento. Por lo tanto, este artículo propone un método de alineación de factualidad de grano fino basado en Optimización Directa de Preferencias (DPO), llamado Mask-DPO. Al incorporar la factualidad a nivel de oración como señales de máscara, Mask-DPO solo aprende de oraciones factualmente correctas en las muestras preferidas y evita penalizar el contenido factual en las muestras no preferidas, lo que resuelve la ambigüedad en el aprendizaje de preferencias. Los resultados experimentales extensivos demuestran que Mask-DPO puede mejorar significativamente la factualidad de las respuestas de los LLMs a preguntas de conjuntos de datos tanto dentro como fuera del dominio, aunque estas preguntas y sus temas correspondientes no se hayan visto durante el entrenamiento. Solo entrenado en el conjunto de entrenamiento de ANAH, la puntuación de Llama3.1-8B-Instruct en el conjunto de prueba de ANAH mejora del 49.19% al 77.53%, superando incluso la puntuación de Llama3.1-70B-Instruct (53.44%), mientras que su FactScore en el conjunto de datos fuera del dominio de Biografía también mejora del 30.29% al 39.39%. Además, estudiamos la propiedad de generalización de Mask-DPO utilizando diferentes estrategias de escalado de muestras de entrenamiento y encontramos que escalar el número de temas en el conjunto de datos es más efectivo que el número de preguntas. Proporcionamos una hipótesis sobre lo que la alineación de factualidad está haciendo con los LLMs, sobre la implicación de este fenómeno, y realizamos experimentos de prueba de concepto para verificarla. Esperamos que el método y los hallazgos allanen el camino para futuras investigaciones sobre el escalado de la alineación de factualidad.
English
Large language models (LLMs) exhibit hallucinations (i.e., unfaithful or
nonsensical information) when serving as AI assistants in various domains.
Since hallucinations always come with truthful content in the LLM responses,
previous factuality alignment methods that conduct response-level preference
learning inevitably introduced noises during training. Therefore, this paper
proposes a fine-grained factuality alignment method based on Direct Preference
Optimization (DPO), called Mask-DPO. Incorporating sentence-level factuality as
mask signals, Mask-DPO only learns from factually correct sentences in the
preferred samples and prevents the penalty on factual contents in the not
preferred samples, which resolves the ambiguity in the preference learning.
Extensive experimental results demonstrate that Mask-DPO can significantly
improve the factuality of LLMs responses to questions from both in-domain and
out-of-domain datasets, although these questions and their corresponding topics
are unseen during training. Only trained on the ANAH train set, the score of
Llama3.1-8B-Instruct on the ANAH test set is improved from 49.19% to 77.53%,
even surpassing the score of Llama3.1-70B-Instruct (53.44%), while its
FactScore on the out-of-domain Biography dataset is also improved from 30.29%
to 39.39%. We further study the generalization property of Mask-DPO using
different training sample scaling strategies and find that scaling the number
of topics in the dataset is more effective than the number of questions. We
provide a hypothesis of what factual alignment is doing with LLMs, on the
implication of this phenomenon, and conduct proof-of-concept experiments to
verify it. We hope the method and the findings pave the way for future research
on scaling factuality alignment.Summary
AI-Generated Summary