FLAME: 大規模言語モデルのための事実性考慮アライメント
FLAME: Factuality-Aware Alignment for Large Language Models
May 2, 2024
著者: Sheng-Chieh Lin, Luyu Gao, Barlas Oguz, Wenhan Xiong, Jimmy Lin, Wen-tau Yih, Xilun Chen
cs.AI
要旨
アライメントは、事前学習済み大規模言語モデル(LLM)を自然言語指示に従う有用なAIアシスタントとして調整する標準的な手順である。しかし我々は、従来のアライメント手法ではLLMの事実正確性が向上せず、むしろ虚偽の事実(すなわち幻覚)の生成が増加する傾向にあることを観察した。本論文では、アライメントの二段階(教師ありファインチューニング: SFT と強化学習: RL)において幻覚生成を引き起こす要因を特定し、LLMアライメントプロセスをより事実に基づいたものにする方法を検討する。特に、新しい知識やLLMにとって不慣れなテキストでの学習が幻覚を促進することを発見した。これはSFTにおいて、LLMにとって未経験の可能性がある人間によるラベル付きデータで学習を行うため、事実性が低下する原因となる。さらに、標準的なRLで使用される報酬関数も、多様な指示に対してより詳細で長い回答を好む傾向があるため、幻覚を助長し得る。これらの観察に基づき、我々は事実性を考慮したアライメント手法を提案する。これは、直接選好最適化による事実性考慮型SFTと事実性考慮型RLで構成される。実験結果から、提案手法が指示追従能力を維持しつつ、より事実に基づいた回答を出力するようにLLMを導くことが示された。
English
Alignment is a standard procedure to fine-tune pre-trained large language
models (LLMs) to follow natural language instructions and serve as helpful AI
assistants. We have observed, however, that the conventional alignment process
fails to enhance the factual accuracy of LLMs, and often leads to the
generation of more false facts (i.e. hallucination). In this paper, we study
how to make the LLM alignment process more factual, by first identifying
factors that lead to hallucination in both alignment steps:\ supervised
fine-tuning (SFT) and reinforcement learning (RL). In particular, we find that
training the LLM on new knowledge or unfamiliar texts can encourage
hallucination. This makes SFT less factual as it trains on human labeled data
that may be novel to the LLM. Furthermore, reward functions used in standard RL
can also encourage hallucination, because it guides the LLM to provide more
helpful responses on a diverse set of instructions, often preferring longer and
more detailed responses. Based on these observations, we propose
factuality-aware alignment, comprised of factuality-aware SFT and
factuality-aware RL through direct preference optimization. Experiments show
that our proposed factuality-aware alignment guides LLMs to output more factual
responses while maintaining instruction-following capability.