ChatPaper.aiChatPaper

FLAME: 대형 언어 모델을 위한 사실성 인지 정렬

FLAME: Factuality-Aware Alignment for Large Language Models

May 2, 2024
저자: Sheng-Chieh Lin, Luyu Gao, Barlas Oguz, Wenhan Xiong, Jimmy Lin, Wen-tau Yih, Xilun Chen
cs.AI

초록

정렬(Alignment)은 사전 학습된 대규모 언어 모델(LLM)을 미세 조정하여 자연어 명령을 따르고 유용한 AI 어시스턴트 역할을 하도록 만드는 표준 절차입니다. 그러나 우리는 기존의 정렬 과정이 LLM의 사실적 정확성을 향상시키지 못하고, 오히려 더 많은 허위 사실(즉, 환각)을 생성하게 만드는 경우를 관찰했습니다. 본 논문에서는 정렬 과정을 더 사실적으로 만드는 방법을 연구하며, 특히 지도 미세 조정(SFT)과 강화 학습(RL) 두 단계에서 환각을 유발하는 요인을 식별합니다. 구체적으로, LLM이 새로운 지식이나 익숙하지 않은 텍스트를 학습할 때 환각이 촉진될 수 있음을 발견했습니다. 이는 LLM에게 새로운 인간 레이블 데이터를 학습시키는 SFT가 사실성을 떨어뜨리는 원인이 됩니다. 또한, 표준 RL에서 사용되는 보상 함수도 환각을 유발할 수 있는데, 이는 다양한 명령에 대해 더 유용하고 길고 상세한 응답을 선호하도록 LLM을 유도하기 때문입니다. 이러한 관찰을 바탕으로, 우리는 사실성 인식 정렬을 제안합니다. 이는 사실성 인식 SFT와 직접 선호 최적화를 통한 사실성 인식 RL로 구성됩니다. 실험 결과, 우리가 제안한 사실성 인식 정렬은 LLM이 명령을 따르는 능력을 유지하면서도 더 사실적인 응답을 출력하도록 유도하는 것으로 나타났습니다.
English
Alignment is a standard procedure to fine-tune pre-trained large language models (LLMs) to follow natural language instructions and serve as helpful AI assistants. We have observed, however, that the conventional alignment process fails to enhance the factual accuracy of LLMs, and often leads to the generation of more false facts (i.e. hallucination). In this paper, we study how to make the LLM alignment process more factual, by first identifying factors that lead to hallucination in both alignment steps:\ supervised fine-tuning (SFT) and reinforcement learning (RL). In particular, we find that training the LLM on new knowledge or unfamiliar texts can encourage hallucination. This makes SFT less factual as it trains on human labeled data that may be novel to the LLM. Furthermore, reward functions used in standard RL can also encourage hallucination, because it guides the LLM to provide more helpful responses on a diverse set of instructions, often preferring longer and more detailed responses. Based on these observations, we propose factuality-aware alignment, comprised of factuality-aware SFT and factuality-aware RL through direct preference optimization. Experiments show that our proposed factuality-aware alignment guides LLMs to output more factual responses while maintaining instruction-following capability.

Summary

AI-Generated Summary

PDF291December 15, 2024