Dados Sintéticos Fictícios Podem Melhorar a Factualidade de LLM por Meio de Aprendizado Prévio

Resumo

Estudos recentes identificaram um fator agravante das alucinações de LLM como a inconsistência de conhecimento entre pré-treinamento e ajuste fino, onde dados de ajuste fino não familiares induzem o LLM a fabricar saídas plausíveis, porém incorretas. Neste artigo, propomos uma estratégia de ajuste fino inovadora chamada Prereq-Tune para lidar com essa inconsistência de conhecimento e reduzir as alucinações. Fundamentalmente, o Prereq-Tune desembaraça a aprendizagem de habilidades e conhecimento, de modo que o modelo aprende apenas as habilidades da tarefa sem ser afetado pela inconsistência de conhecimento. Para alcançar isso, o Prereq-Tune introduz uma etapa adicional de aprendizagem de pré-requisitos para aprender o conhecimento necessário para o ajuste fino da tarefa, permitindo que o ajuste fino subsequente se concentre apenas nas habilidades da tarefa. O Prereq-Tune também pode ser combinado com dados sintéticos fictícios para aprimorar a fundamentação das saídas do LLM em seu conhecimento interno. Experimentos mostram que o Prereq-Tune supera as bases existentes na melhoria da factualidade do LLM em tarefas de perguntas e respostas curtas e na geração de texto longo. Ele também abre novas possibilidades para a geração controlada por conhecimento em LLMs. Nosso código está disponível em https://github.com/UCSB-NLP-Chang/Prereq_tune.git.

English

Recent studies have identified one aggravating factor of LLM hallucinations as the knowledge inconsistency between pre-training and fine-tuning, where unfamiliar fine-tuning data mislead the LLM to fabricate plausible but wrong outputs. In this paper, we propose a novel fine-tuning strategy called Prereq-Tune to address this knowledge inconsistency and reduce hallucinations. Fundamentally, Prereq-Tune disentangles the learning of skills and knowledge, so the model learns only the task skills without being impacted by the knowledge inconsistency. To achieve this, Prereq-Tune introduces an additional prerequisite learning stage to learn the necessary knowledge for SFT, allowing subsequent SFT to focus only on task skills. Prereq-Tune can also be combined with fictitious synthetic data to enhance the grounding of LLM outputs to their internal knowledge. Experiments show that Prereq-Tune outperforms existing baselines in improving LLM's factuality across short QA and long-form generation tasks. It also opens new possibilities for knowledge-controlled generation in LLMs. Our code is available at https://github.com/UCSB-NLP-Chang/Prereq_tune.git.

Dados Sintéticos Fictícios Podem Melhorar a Factualidade de LLM por Meio de Aprendizado Prévio

Fictitious Synthetic Data Can Improve LLM Factuality via Prerequisite Learning

Resumo

Support