ChatPaper.aiChatPaper

Mask-DPO: Alinhamento Generalizável de Factualidade de Alta Granularidade em LLMs

Mask-DPO: Generalizable Fine-grained Factuality Alignment of LLMs

March 4, 2025
Autores: Yuzhe Gu, Wenwei Zhang, Chengqi Lyu, Dahua Lin, Kai Chen
cs.AI

Resumo

Modelos de linguagem de grande escala (LLMs) exibem alucinações (ou seja, informações infiéis ou sem sentido) ao atuarem como assistentes de IA em diversos domínios. Como as alucinações sempre vêm acompanhadas de conteúdo verdadeiro nas respostas dos LLMs, métodos anteriores de alinhamento de factualidade que realizam aprendizado de preferência no nível da resposta inevitavelmente introduziram ruídos durante o treinamento. Portanto, este artigo propõe um método de alinhamento de factualidade refinado baseado em Otimização de Preferência Direta (DPO), chamado Mask-DPO. Incorporando a factualidade em nível de frase como sinais de máscara, o Mask-DPO aprende apenas com frases factualmente corretas nas amostras preferidas e evita penalizar conteúdos factuais nas amostras não preferidas, o que resolve a ambiguidade no aprendizado de preferência. Resultados experimentais extensivos demonstram que o Mask-DPO pode melhorar significativamente a factualidade das respostas dos LLMs a perguntas de conjuntos de dados tanto dentro quanto fora do domínio, embora essas perguntas e seus tópicos correspondentes não tenham sido vistos durante o treinamento. Treinado apenas no conjunto de treino ANAH, a pontuação do Llama3.1-8B-Instruct no conjunto de teste ANAH melhorou de 49,19% para 77,53%, superando até mesmo a pontuação do Llama3.1-70B-Instruct (53,44%), enquanto seu FactScore no conjunto de dados fora do domínio Biografia também melhorou de 30,29% para 39,39%. Estudamos ainda a propriedade de generalização do Mask-DPO usando diferentes estratégias de escalonamento de amostras de treinamento e descobrimos que escalonar o número de tópicos no conjunto de dados é mais eficaz do que o número de perguntas. Apresentamos uma hipótese sobre o que o alinhamento de factualidade está fazendo com os LLMs, discutimos as implicações desse fenômeno e realizamos experimentos de prova de conceito para verificá-la. Esperamos que o método e as descobertas pavimentem o caminho para pesquisas futuras sobre escalonamento de alinhamento de factualidade.
English
Large language models (LLMs) exhibit hallucinations (i.e., unfaithful or nonsensical information) when serving as AI assistants in various domains. Since hallucinations always come with truthful content in the LLM responses, previous factuality alignment methods that conduct response-level preference learning inevitably introduced noises during training. Therefore, this paper proposes a fine-grained factuality alignment method based on Direct Preference Optimization (DPO), called Mask-DPO. Incorporating sentence-level factuality as mask signals, Mask-DPO only learns from factually correct sentences in the preferred samples and prevents the penalty on factual contents in the not preferred samples, which resolves the ambiguity in the preference learning. Extensive experimental results demonstrate that Mask-DPO can significantly improve the factuality of LLMs responses to questions from both in-domain and out-of-domain datasets, although these questions and their corresponding topics are unseen during training. Only trained on the ANAH train set, the score of Llama3.1-8B-Instruct on the ANAH test set is improved from 49.19% to 77.53%, even surpassing the score of Llama3.1-70B-Instruct (53.44%), while its FactScore on the out-of-domain Biography dataset is also improved from 30.29% to 39.39%. We further study the generalization property of Mask-DPO using different training sample scaling strategies and find that scaling the number of topics in the dataset is more effective than the number of questions. We provide a hypothesis of what factual alignment is doing with LLMs, on the implication of this phenomenon, and conduct proof-of-concept experiments to verify it. We hope the method and the findings pave the way for future research on scaling factuality alignment.
PDF192March 5, 2025