Grote multimodale modellen afstemmen met feitelijk versterkte RLHF

Samenvatting

Grote Multimodale Modellen (LMM) worden gebouwd over verschillende modaliteiten heen, en de misalignering tussen twee modaliteiten kan leiden tot "hallucinatie", waarbij tekstuele uitvoeren worden gegenereerd die niet zijn verankerd in de multimodale informatie in de context. Om het probleem van multimodale misalignering aan te pakken, passen we Reinforcement Learning from Human Feedback (RLHF) aan vanuit het tekstdomein naar de taak van visie-taal-alignering, waarbij menselijke annotatoren wordt gevraagd om twee reacties te vergelijken en de meest gehallucineerde aan te wijzen, en het visie-taal-model wordt getraind om de gesimuleerde menselijke beloningen te maximaliseren. We stellen een nieuw aligneringsalgoritme voor genaamd Factually Augmented RLHF dat het beloningsmodel versterkt met aanvullende feitelijke informatie zoals beeldbeschrijvingen en waarheidsgetrouwe meerkeuzeopties, wat het beloningshackingsfenomeen in RLHF verlicht en de prestaties verder verbetert. We verbeteren ook de GPT-4-gegenereerde trainingsgegevens (voor visie-instructieafstemming) met eerder beschikbare door mensen geschreven beeld-tekstparen om de algemene capaciteiten van ons model te verbeteren. Om de voorgestelde aanpak in real-world scenario's te evalueren, ontwikkelen we een nieuwe evaluatiebenchmark MMHAL-BENCH met een speciale focus op het bestraffen van hallucinaties. Als het eerste LMM dat met RLHF is getraind, bereikt onze aanpak een opmerkelijke verbetering op de LLaVA-Bench dataset met het 94% prestatieniveau van de tekst-only GPT-4 (terwijl eerdere beste methoden slechts het 87% niveau konden bereiken), en een verbetering van 60% op MMHAL-BENCH ten opzichte van andere baselines. We openbaren onze code, model en gegevens op https://llava-rlhf.github.io.

English

Large Multimodal Models (LMM) are built across modalities and the misalignment between two modalities can result in "hallucination", generating textual outputs that are not grounded by the multimodal information in context. To address the multimodal misalignment issue, we adapt the Reinforcement Learning from Human Feedback (RLHF) from the text domain to the task of vision-language alignment, where human annotators are asked to compare two responses and pinpoint the more hallucinated one, and the vision-language model is trained to maximize the simulated human rewards. We propose a new alignment algorithm called Factually Augmented RLHF that augments the reward model with additional factual information such as image captions and ground-truth multi-choice options, which alleviates the reward hacking phenomenon in RLHF and further improves the performance. We also enhance the GPT-4-generated training data (for vision instruction tuning) with previously available human-written image-text pairs to improve the general capabilities of our model. To evaluate the proposed approach in real-world scenarios, we develop a new evaluation benchmark MMHAL-BENCH with a special focus on penalizing hallucinations. As the first LMM trained with RLHF, our approach achieves remarkable improvement on the LLaVA-Bench dataset with the 94% performance level of the text-only GPT-4 (while previous best methods can only achieve the 87% level), and an improvement by 60% on MMHAL-BENCH over other baselines. We opensource our code, model, data at https://llava-rlhf.github.io.

Grote multimodale modellen afstemmen met feitelijk versterkte RLHF

Aligning Large Multimodal Models with Factually Augmented RLHF

Samenvatting

Support