ChatPaper.aiChatPaper

Mask-DPO: Allineamento Generalizzabile della Fattualità Fine-Grained per LLM

Mask-DPO: Generalizable Fine-grained Factuality Alignment of LLMs

March 4, 2025
Autori: Yuzhe Gu, Wenwei Zhang, Chengqi Lyu, Dahua Lin, Kai Chen
cs.AI

Abstract

I grandi modelli linguistici (LLM) manifestano allucinazioni (cioè informazioni infedeli o prive di senso) quando fungono da assistenti AI in vari domini. Poiché le allucinazioni sono sempre accompagnate da contenuti veritieri nelle risposte degli LLM, i precedenti metodi di allineamento fattuale che eseguivano l'apprendimento delle preferenze a livello di risposta hanno inevitabilmente introdotto rumore durante l'addestramento. Pertanto, questo articolo propone un metodo di allineamento fattuale granulare basato sull'ottimizzazione diretta delle preferenze (DPO), chiamato Mask-DPO. Incorporando la fattualità a livello di frase come segnali di maschera, Mask-DPO apprende solo dalle frasi fattualmente corrette nei campioni preferiti e previene la penalizzazione dei contenuti fattuali nei campioni non preferiti, risolvendo così l'ambiguità nell'apprendimento delle preferenze. I risultati sperimentali estesi dimostrano che Mask-DPO può migliorare significativamente la fattualità delle risposte degli LLM a domande provenienti sia da dataset in dominio che fuori dominio, sebbene queste domande e i loro argomenti corrispondenti non siano stati visti durante l'addestramento. Addestrato solo sul set di addestramento ANAH, il punteggio di Llama3.1-8B-Instruct sul set di test ANAH è migliorato dal 49,19% al 77,53%, superando persino il punteggio di Llama3.1-70B-Instruct (53,44%), mentre il suo FactScore sul dataset fuori dominio Biography è migliorato dal 30,29% al 39,39%. Studiamo ulteriormente la proprietà di generalizzazione di Mask-DPO utilizzando diverse strategie di scalabilità dei campioni di addestramento e scopriamo che aumentare il numero di argomenti nel dataset è più efficace che aumentare il numero di domande. Forniamo un'ipotesi su ciò che l'allineamento fattuale sta facendo con gli LLM, sull'implicazione di questo fenomeno, e conduciamo esperimenti di prova di concetto per verificarlo. Speriamo che il metodo e i risultati aprano la strada a future ricerche sulla scalabilità dell'allineamento fattuale.
English
Large language models (LLMs) exhibit hallucinations (i.e., unfaithful or nonsensical information) when serving as AI assistants in various domains. Since hallucinations always come with truthful content in the LLM responses, previous factuality alignment methods that conduct response-level preference learning inevitably introduced noises during training. Therefore, this paper proposes a fine-grained factuality alignment method based on Direct Preference Optimization (DPO), called Mask-DPO. Incorporating sentence-level factuality as mask signals, Mask-DPO only learns from factually correct sentences in the preferred samples and prevents the penalty on factual contents in the not preferred samples, which resolves the ambiguity in the preference learning. Extensive experimental results demonstrate that Mask-DPO can significantly improve the factuality of LLMs responses to questions from both in-domain and out-of-domain datasets, although these questions and their corresponding topics are unseen during training. Only trained on the ANAH train set, the score of Llama3.1-8B-Instruct on the ANAH test set is improved from 49.19% to 77.53%, even surpassing the score of Llama3.1-70B-Instruct (53.44%), while its FactScore on the out-of-domain Biography dataset is also improved from 30.29% to 39.39%. We further study the generalization property of Mask-DPO using different training sample scaling strategies and find that scaling the number of topics in the dataset is more effective than the number of questions. We provide a hypothesis of what factual alignment is doing with LLMs, on the implication of this phenomenon, and conduct proof-of-concept experiments to verify it. We hope the method and the findings pave the way for future research on scaling factuality alignment.

Summary

AI-Generated Summary

PDF192March 5, 2025