DeAL: 대형 언어 모델을 위한 디코딩 시점 정렬
DeAL: Decoding-time Alignment for Large Language Models
February 5, 2024
저자: James Y. Huang, Sailik Sengupta, Daniele Bonadiman, Yi-an Lai, Arshit Gupta, Nikolaos Pappas, Saab Mansour, Katrin Kirchoff, Dan Roth
cs.AI
초록
대형 언어 모델(LLMs)은 현재 인간의 선호도에 부합하는 콘텐츠를 생성할 것으로 기대되고 있습니다. 현재의 연구는 인간 피드백을 통한 강화 학습(RLHF)과 같은 기술을 통해 모델 학습 시점에 정렬(alignment)에 초점을 맞추고 있습니다. 그러나 이러한 방법이 모델에 정렬 목표를 가르치는 데 효과적인 선택인지는 불분명합니다. 첫째, 다수의 사용자 정의 보상을 통합할 수 없는 점과 모델 개발자의 보편적이고 정적인 원칙에 의존해야 한다는 점이 주요 한계입니다. 둘째, 모델 학습의 잔여 격차와 이러한 접근 방식의 신뢰성도 의문스럽습니다(예: 안전 훈련 후에도 탈옥에 취약함). 이를 해결하기 위해 우리는 사용자가 보상 함수를 사용자 정의할 수 있도록 하고, LLM의 디코딩 시점 정렬(DeAL)을 가능하게 하는 프레임워크인 DeAL을 제안합니다. 핵심적으로, 우리는 디코딩을 휴리스틱 기반 탐색 과정으로 간주하고 다양한 정렬 목표의 사용을 용이하게 합니다. 키워드 및 길이 제약과 같은 프로그램적 제약(LLM 이전 시대에 널리 연구됨)과 무해성 및 유용성과 같은 추상적 목표(LLM 이후 시대에 제안됨)를 대상으로 한 실험을 통해, 우리는 세밀한 트레이드오프를 다룰 수 있고, 정렬 목표에 대한 준수를 개선하며, LLM의 잔여 격차를 해결할 수 있음을 보여줍니다. 마지막으로, DeAL은 RLHF 및 프롬프트 기술과 효과적으로 결합될 수 있지만, 그 일반성으로 인해 디코딩 속도가 느려지는 문제는 향후 연구를 통해 최적화할 과제로 남겨둡니다.
English
Large Language Models (LLMs) are nowadays expected to generate content
aligned with human preferences. Current work focuses on alignment at model
training time, through techniques such as Reinforcement Learning with Human
Feedback (RLHF). However, it is unclear if such methods are an effective choice
to teach alignment objectives to the model. First, the inability to incorporate
multiple, custom rewards and reliance on a model developer's view of universal
and static principles are key limitations. Second, the residual gaps in model
training and the reliability of such approaches are also questionable (e.g.
susceptibility to jail-breaking even after safety training). To address these,
we propose DeAL, a framework that allows the user to customize reward functions
and enables Decoding-time Alignment of LLMs (DeAL). At its core, we view
decoding as a heuristic-guided search process and facilitate the use of a wide
variety of alignment objectives. Our experiments with programmatic constraints
such as keyword and length constraints (studied widely in the pre-LLM era) and
abstract objectives such as harmlessness and helpfulness (proposed in the
post-LLM era) show that we can DeAL with fine-grained trade-offs, improve
adherence to alignment objectives, and address residual gaps in LLMs. Lastly,
while DeAL can be effectively paired with RLHF and prompting techniques, its
generality makes decoding slower, an optimization we leave for future work.