Mask-DPO: Generaliseerbare fijnmazige feitelijke afstemming van LLM's
Mask-DPO: Generalizable Fine-grained Factuality Alignment of LLMs
March 4, 2025
Auteurs: Yuzhe Gu, Wenwei Zhang, Chengqi Lyu, Dahua Lin, Kai Chen
cs.AI
Samenvatting
Grote taalmodellen (LLMs) vertonen hallucinaties (d.w.z. onbetrouwbare of onzinnige informatie) wanneer ze dienen als AI-assistenten in verschillende domeinen. Omdat hallucinaties altijd gepaard gaan met waarheidsgetrouwe inhoud in de LLM-reacties, introduceerden eerdere methoden voor feitelijke afstemming die voorkeursleren op responsniveau uitvoeren onvermijdelijk ruis tijdens de training. Daarom stelt dit artikel een verfijnde methode voor feitelijke afstemming voor, gebaseerd op Direct Preference Optimization (DPO), genaamd Mask-DPO. Door feitelijkheid op zinsniveau te gebruiken als maskersignalen, leert Mask-DPO alleen van feitelijk correcte zinnen in de voorkeurssamples en voorkomt het straffen van feitelijke inhoud in de niet-voorkeurssamples, wat de ambiguïteit in het voorkeursleren oplost. Uitgebreide experimentele resultaten tonen aan dat Mask-DPO de feitelijkheid van LLM-reacties op vragen uit zowel domeinspecifieke als domeinoverstijgende datasets aanzienlijk kan verbeteren, hoewel deze vragen en hun bijbehorende onderwerpen niet gezien zijn tijdens de training. Alleen getraind op de ANAH-trainingsset, verbeterde de score van Llama3.1-8B-Instruct op de ANAH-testset van 49,19% naar 77,53%, wat zelfs de score van Llama3.1-70B-Instruct (53,44%) overtreft, terwijl de FactScore op de domeinoverstijgende Biography-dataset ook verbeterde van 30,29% naar 39,39%. We bestuderen verder de generalisatie-eigenschap van Mask-DPO met behulp van verschillende strategieën voor het schalen van trainingssamples en ontdekken dat het schalen van het aantal onderwerpen in de dataset effectiever is dan het aantal vragen. We bieden een hypothese over wat feitelijke afstemming doet met LLMs, over de implicatie van dit fenomeen, en voeren proof-of-concept experimenten uit om dit te verifiëren. We hopen dat de methode en de bevindingen de weg vrijmaken voor toekomstig onderzoek naar het schalen van feitelijke afstemming.
English
Large language models (LLMs) exhibit hallucinations (i.e., unfaithful or
nonsensical information) when serving as AI assistants in various domains.
Since hallucinations always come with truthful content in the LLM responses,
previous factuality alignment methods that conduct response-level preference
learning inevitably introduced noises during training. Therefore, this paper
proposes a fine-grained factuality alignment method based on Direct Preference
Optimization (DPO), called Mask-DPO. Incorporating sentence-level factuality as
mask signals, Mask-DPO only learns from factually correct sentences in the
preferred samples and prevents the penalty on factual contents in the not
preferred samples, which resolves the ambiguity in the preference learning.
Extensive experimental results demonstrate that Mask-DPO can significantly
improve the factuality of LLMs responses to questions from both in-domain and
out-of-domain datasets, although these questions and their corresponding topics
are unseen during training. Only trained on the ANAH train set, the score of
Llama3.1-8B-Instruct on the ANAH test set is improved from 49.19% to 77.53%,
even surpassing the score of Llama3.1-70B-Instruct (53.44%), while its
FactScore on the out-of-domain Biography dataset is also improved from 30.29%
to 39.39%. We further study the generalization property of Mask-DPO using
different training sample scaling strategies and find that scaling the number
of topics in the dataset is more effective than the number of questions. We
provide a hypothesis of what factual alignment is doing with LLMs, on the
implication of this phenomenon, and conduct proof-of-concept experiments to
verify it. We hope the method and the findings pave the way for future research
on scaling factuality alignment.Summary
AI-Generated Summary