Mask-DPO : Alignement généralisable et granulaire de la factualité des LLM
Mask-DPO: Generalizable Fine-grained Factuality Alignment of LLMs
March 4, 2025
Auteurs: Yuzhe Gu, Wenwei Zhang, Chengqi Lyu, Dahua Lin, Kai Chen
cs.AI
Résumé
Les grands modèles de langage (LLMs) présentent des hallucinations (c'est-à-dire des informations infidèles ou absurdes) lorsqu'ils servent d'assistants IA dans divers domaines. Étant donné que les hallucinations sont toujours accompagnées de contenu véridique dans les réponses des LLMs, les méthodes précédentes d'alignement factuel qui effectuent un apprentissage des préférences au niveau de la réponse ont inévitablement introduit du bruit pendant l'entraînement. Par conséquent, cet article propose une méthode d'alignement factuel fine basée sur l'Optimisation Directe des Préférences (DPO), appelée Mask-DPO. En incorporant la factualité au niveau de la phrase comme signaux de masquage, Mask-DPO n'apprend qu'à partir des phrases factuellement correctes dans les échantillons préférés et évite de pénaliser les contenus factuels dans les échantillons non préférés, ce qui résout l'ambiguïté dans l'apprentissage des préférences. Les résultats expérimentaux approfondis démontrent que Mask-DPO peut significativement améliorer la factualité des réponses des LLMs à des questions provenant de jeux de données intra-domaines et extra-domaines, bien que ces questions et leurs sujets correspondants n'aient pas été vus pendant l'entraînement. Entraîné uniquement sur l'ensemble d'entraînement ANAH, le score de Llama3.1-8B-Instruct sur l'ensemble de test ANAH est passé de 49,19 % à 77,53 %, surpassant même le score de Llama3.1-70B-Instruct (53,44 %), tandis que son FactScore sur le jeu de données extra-domaine Biography est également passé de 30,29 % à 39,39 %. Nous étudions en outre la propriété de généralisation de Mask-DPO en utilisant différentes stratégies de mise à l'échelle des échantillons d'entraînement et constatons que la mise à l'échelle du nombre de sujets dans le jeu de données est plus efficace que celle du nombre de questions. Nous proposons une hypothèse sur ce que l'alignement factuel fait avec les LLMs, sur l'implication de ce phénomène, et menons des expériences de preuve de concept pour la vérifier. Nous espérons que la méthode et les résultats ouvrent la voie à des recherches futures sur la mise à l'échelle de l'alignement factuel.
English
Large language models (LLMs) exhibit hallucinations (i.e., unfaithful or
nonsensical information) when serving as AI assistants in various domains.
Since hallucinations always come with truthful content in the LLM responses,
previous factuality alignment methods that conduct response-level preference
learning inevitably introduced noises during training. Therefore, this paper
proposes a fine-grained factuality alignment method based on Direct Preference
Optimization (DPO), called Mask-DPO. Incorporating sentence-level factuality as
mask signals, Mask-DPO only learns from factually correct sentences in the
preferred samples and prevents the penalty on factual contents in the not
preferred samples, which resolves the ambiguity in the preference learning.
Extensive experimental results demonstrate that Mask-DPO can significantly
improve the factuality of LLMs responses to questions from both in-domain and
out-of-domain datasets, although these questions and their corresponding topics
are unseen during training. Only trained on the ANAH train set, the score of
Llama3.1-8B-Instruct on the ANAH test set is improved from 49.19% to 77.53%,
even surpassing the score of Llama3.1-70B-Instruct (53.44%), while its
FactScore on the out-of-domain Biography dataset is also improved from 30.29%
to 39.39%. We further study the generalization property of Mask-DPO using
different training sample scaling strategies and find that scaling the number
of topics in the dataset is more effective than the number of questions. We
provide a hypothesis of what factual alignment is doing with LLMs, on the
implication of this phenomenon, and conduct proof-of-concept experiments to
verify it. We hope the method and the findings pave the way for future research
on scaling factuality alignment.Summary
AI-Generated Summary