사실 기반 RLHF로 대규모 멀티모달 모델 정렬하기
Aligning Large Multimodal Models with Factually Augmented RLHF
September 25, 2023
저자: Zhiqing Sun, Sheng Shen, Shengcao Cao, Haotian Liu, Chunyuan Li, Yikang Shen, Chuang Gan, Liang-Yan Gui, Yu-Xiong Wang, Yiming Yang, Kurt Keutzer, Trevor Darrell
cs.AI
초록
대규모 다중모달 모델(LMM)은 다양한 모달리티를 기반으로 구축되며, 두 모달리티 간의 불일치는 "환각(hallucination)"을 초래할 수 있습니다. 이는 맥락 내 다중모달 정보에 기반하지 않은 텍스트 출력을 생성하는 문제입니다. 이러한 다중모달 불일치 문제를 해결하기 위해, 우리는 텍스트 도메인에서의 인간 피드백 강화 학습(RLHF)을 시각-언어 정렬 작업에 적용합니다. 여기서 인간 평가자는 두 응답을 비교하여 더 많은 환각이 포함된 응답을 지적하고, 시각-언어 모델은 시뮬레이션된 인간 보상을 극대화하도록 훈련됩니다. 우리는 사실 정보(예: 이미지 캡션 및 실제 다중 선택 옵션)를 보상 모델에 추가하여 RLHF의 보상 해킹 현상을 완화하고 성능을 더욱 향상시키는 새로운 정렬 알고리즘인 Factually Augmented RLHF를 제안합니다. 또한, GPT-4로 생성된 훈련 데이터(시각 명령 튜닝용)를 이전에 사용 가능했던 인간이 작성한 이미지-텍스트 쌍으로 보강하여 모델의 일반적인 능력을 향상시킵니다. 제안된 접근법을 실제 시나리오에서 평가하기 위해, 우리는 환각을 특히 강하게 처벌하는 새로운 평가 벤치마크인 MMHAL-BENCH를 개발합니다. RLHF로 훈련된 첫 번째 LMM으로서, 우리의 접근법은 LLaVA-Bench 데이터셋에서 텍스트 전용 GPT-4의 94% 성능 수준(이전 최고 방법은 87% 수준에 머물렀음)을 달성하고, MMHAL-BENCH에서 다른 기준선 대비 60%의 성능 향상을 보입니다. 우리는 코드, 모델, 데이터를 https://llava-rlhf.github.io에서 공개합니다.
English
Large Multimodal Models (LMM) are built across modalities and the
misalignment between two modalities can result in "hallucination", generating
textual outputs that are not grounded by the multimodal information in context.
To address the multimodal misalignment issue, we adapt the Reinforcement
Learning from Human Feedback (RLHF) from the text domain to the task of
vision-language alignment, where human annotators are asked to compare two
responses and pinpoint the more hallucinated one, and the vision-language model
is trained to maximize the simulated human rewards. We propose a new alignment
algorithm called Factually Augmented RLHF that augments the reward model with
additional factual information such as image captions and ground-truth
multi-choice options, which alleviates the reward hacking phenomenon in RLHF
and further improves the performance. We also enhance the GPT-4-generated
training data (for vision instruction tuning) with previously available
human-written image-text pairs to improve the general capabilities of our
model. To evaluate the proposed approach in real-world scenarios, we develop a
new evaluation benchmark MMHAL-BENCH with a special focus on penalizing
hallucinations. As the first LMM trained with RLHF, our approach achieves
remarkable improvement on the LLaVA-Bench dataset with the 94% performance
level of the text-only GPT-4 (while previous best methods can only achieve the
87% level), and an improvement by 60% on MMHAL-BENCH over other baselines. We
opensource our code, model, data at https://llava-rlhf.github.io.