Mask-DPO: Generalisierbare Feinabstimmung der Faktentreue von LLMs
Mask-DPO: Generalizable Fine-grained Factuality Alignment of LLMs
March 4, 2025
Autoren: Yuzhe Gu, Wenwei Zhang, Chengqi Lyu, Dahua Lin, Kai Chen
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) zeigen Halluzinationen (d. h. unzuverlässige oder unsinnige Informationen), wenn sie als KI-Assistenten in verschiedenen Domänen eingesetzt werden. Da Halluzinationen in den LLM-Antworten stets mit wahrheitsgemäßen Inhalten einhergehen, führten bisherige Methoden zur Faktizitätsausrichtung, die auf Präferenzlernen auf Antwortebene basieren, unweigerlich Rauschen während des Trainings ein. Daher schlägt dieses Papier eine feinkörnige Methode zur Faktizitätsausrichtung basierend auf Direct Preference Optimization (DPO) vor, genannt Mask-DPO. Indem Mask-DPO die Faktizität auf Satzebene als Maskensignale einbezieht, lernt es nur aus faktisch korrekten Sätzen in den bevorzugten Proben und verhindert die Bestrafung von faktischen Inhalten in den nicht bevorzugten Proben, wodurch die Mehrdeutigkeit im Präferenzlernen aufgelöst wird. Umfangreiche experimentelle Ergebnisse zeigen, dass Mask-DPO die Faktizität der LLM-Antworten auf Fragen sowohl aus in-domain als auch out-of-domain Datensätzen signifikant verbessern kann, obwohl diese Fragen und ihre entsprechenden Themen während des Trainings unbekannt waren. Nur auf dem ANAH-Trainingssatz trainiert, verbesserte sich die Punktzahl von Llama3.1-8B-Instruct auf dem ANAH-Testsatz von 49,19 % auf 77,53 % und übertraf sogar die Punktzahl von Llama3.1-70B-Instruct (53,44 %), während sein FactScore auf dem out-of-domain Biography-Datensatz ebenfalls von 30,29 % auf 39,39 % stieg. Wir untersuchen weiterhin die Generalisierungseigenschaft von Mask-DPO unter Verwendung verschiedener Trainingsstichproben-Skalierungsstrategien und stellen fest, dass die Skalierung der Anzahl der Themen im Datensatz effektiver ist als die Anzahl der Fragen. Wir stellen eine Hypothese darüber auf, was Faktizitätsausrichtung mit LLMs bewirkt, diskutieren die Implikationen dieses Phänomens und führen Proof-of-Concept-Experimente durch, um dies zu verifizieren. Wir hoffen, dass die Methode und die Erkenntnisse den Weg für zukünftige Forschungen zur Skalierung der Faktizitätsausrichtung ebnen.
English
Large language models (LLMs) exhibit hallucinations (i.e., unfaithful or
nonsensical information) when serving as AI assistants in various domains.
Since hallucinations always come with truthful content in the LLM responses,
previous factuality alignment methods that conduct response-level preference
learning inevitably introduced noises during training. Therefore, this paper
proposes a fine-grained factuality alignment method based on Direct Preference
Optimization (DPO), called Mask-DPO. Incorporating sentence-level factuality as
mask signals, Mask-DPO only learns from factually correct sentences in the
preferred samples and prevents the penalty on factual contents in the not
preferred samples, which resolves the ambiguity in the preference learning.
Extensive experimental results demonstrate that Mask-DPO can significantly
improve the factuality of LLMs responses to questions from both in-domain and
out-of-domain datasets, although these questions and their corresponding topics
are unseen during training. Only trained on the ANAH train set, the score of
Llama3.1-8B-Instruct on the ANAH test set is improved from 49.19% to 77.53%,
even surpassing the score of Llama3.1-70B-Instruct (53.44%), while its
FactScore on the out-of-domain Biography dataset is also improved from 30.29%
to 39.39%. We further study the generalization property of Mask-DPO using
different training sample scaling strategies and find that scaling the number
of topics in the dataset is more effective than the number of questions. We
provide a hypothesis of what factual alignment is doing with LLMs, on the
implication of this phenomenon, and conduct proof-of-concept experiments to
verify it. We hope the method and the findings pave the way for future research
on scaling factuality alignment.Summary
AI-Generated Summary