Grote multimodale modellen afstemmen met feitelijk versterkte RLHF
Aligning Large Multimodal Models with Factually Augmented RLHF
September 25, 2023
Auteurs: Zhiqing Sun, Sheng Shen, Shengcao Cao, Haotian Liu, Chunyuan Li, Yikang Shen, Chuang Gan, Liang-Yan Gui, Yu-Xiong Wang, Yiming Yang, Kurt Keutzer, Trevor Darrell
cs.AI
Samenvatting
Grote Multimodale Modellen (LMM) worden gebouwd over verschillende modaliteiten heen, en de misalignering tussen twee modaliteiten kan leiden tot "hallucinatie", waarbij tekstuele uitvoeren worden gegenereerd die niet zijn verankerd in de multimodale informatie in de context. Om het probleem van multimodale misalignering aan te pakken, passen we Reinforcement Learning from Human Feedback (RLHF) aan vanuit het tekstdomein naar de taak van visie-taal-alignering, waarbij menselijke annotatoren wordt gevraagd om twee reacties te vergelijken en de meest gehallucineerde aan te wijzen, en het visie-taal-model wordt getraind om de gesimuleerde menselijke beloningen te maximaliseren. We stellen een nieuw aligneringsalgoritme voor genaamd Factually Augmented RLHF dat het beloningsmodel versterkt met aanvullende feitelijke informatie zoals beeldbeschrijvingen en waarheidsgetrouwe meerkeuzeopties, wat het beloningshackingsfenomeen in RLHF verlicht en de prestaties verder verbetert. We verbeteren ook de GPT-4-gegenereerde trainingsgegevens (voor visie-instructieafstemming) met eerder beschikbare door mensen geschreven beeld-tekstparen om de algemene capaciteiten van ons model te verbeteren. Om de voorgestelde aanpak in real-world scenario's te evalueren, ontwikkelen we een nieuwe evaluatiebenchmark MMHAL-BENCH met een speciale focus op het bestraffen van hallucinaties. Als het eerste LMM dat met RLHF is getraind, bereikt onze aanpak een opmerkelijke verbetering op de LLaVA-Bench dataset met het 94% prestatieniveau van de tekst-only GPT-4 (terwijl eerdere beste methoden slechts het 87% niveau konden bereiken), en een verbetering van 60% op MMHAL-BENCH ten opzichte van andere baselines. We openbaren onze code, model en gegevens op https://llava-rlhf.github.io.
English
Large Multimodal Models (LMM) are built across modalities and the
misalignment between two modalities can result in "hallucination", generating
textual outputs that are not grounded by the multimodal information in context.
To address the multimodal misalignment issue, we adapt the Reinforcement
Learning from Human Feedback (RLHF) from the text domain to the task of
vision-language alignment, where human annotators are asked to compare two
responses and pinpoint the more hallucinated one, and the vision-language model
is trained to maximize the simulated human rewards. We propose a new alignment
algorithm called Factually Augmented RLHF that augments the reward model with
additional factual information such as image captions and ground-truth
multi-choice options, which alleviates the reward hacking phenomenon in RLHF
and further improves the performance. We also enhance the GPT-4-generated
training data (for vision instruction tuning) with previously available
human-written image-text pairs to improve the general capabilities of our
model. To evaluate the proposed approach in real-world scenarios, we develop a
new evaluation benchmark MMHAL-BENCH with a special focus on penalizing
hallucinations. As the first LMM trained with RLHF, our approach achieves
remarkable improvement on the LLaVA-Bench dataset with the 94% performance
level of the text-only GPT-4 (while previous best methods can only achieve the
87% level), and an improvement by 60% on MMHAL-BENCH over other baselines. We
opensource our code, model, data at https://llava-rlhf.github.io.