Ausrichtung großer multimodaler Modelle mit faktisch erweitertem RLHF
Aligning Large Multimodal Models with Factually Augmented RLHF
September 25, 2023
Autoren: Zhiqing Sun, Sheng Shen, Shengcao Cao, Haotian Liu, Chunyuan Li, Yikang Shen, Chuang Gan, Liang-Yan Gui, Yu-Xiong Wang, Yiming Yang, Kurt Keutzer, Trevor Darrell
cs.AI
Zusammenfassung
Große Multimodale Modelle (LMM) werden über verschiedene Modalitäten hinweg aufgebaut, und die Fehlausrichtung zwischen zwei Modalitäten kann zu „Halluzinationen“ führen, bei denen textuelle Ausgaben erzeugt werden, die nicht durch die multimodalen Informationen im Kontext gestützt sind. Um das Problem der multimodalen Fehlausrichtung zu adressieren, adaptieren wir das Reinforcement Learning from Human Feedback (RLHF) aus dem Textbereich auf die Aufgabe der Vision-Sprache-Ausrichtung. Dabei werden menschliche Annotatoren gebeten, zwei Antworten zu vergleichen und diejenige mit stärkeren Halluzinationen zu identifizieren, während das Vision-Sprache-Modell darauf trainiert wird, die simulierten menschlichen Belohnungen zu maximieren. Wir schlagen einen neuen Ausrichtungsalgorithmus namens Factually Augmented RLHF vor, der das Belohnungsmodell mit zusätzlichen faktischen Informationen wie Bildbeschreibungen und wahrheitsgemäßen Multiple-Choice-Optionen erweitert. Dies mildert das Problem des „Reward Hacking“ in RLHF und verbessert die Leistung weiter. Zusätzlich verbessern wir die mit GPT-4 generierten Trainingsdaten (für Vision Instruction Tuning) durch zuvor verfügbare, von Menschen geschriebene Bild-Text-Paare, um die allgemeinen Fähigkeiten unseres Modells zu steigern. Um den vorgeschlagenen Ansatz in realen Szenarien zu evaluieren, entwickeln wir einen neuen Evaluierungsbenchmark, MMHAL-BENCH, mit einem besonderen Fokus auf die Bestrafung von Halluzinationen. Als erstes LMM, das mit RLHF trainiert wurde, erzielt unser Ansatz eine bemerkenswerte Verbesserung auf dem LLaVA-Bench-Datensatz mit 94 % der Leistung des textbasierten GPT-4 (während bisherige beste Methoden nur 87 % erreichen konnten) und eine Verbesserung um 60 % auf MMHAL-BENCH im Vergleich zu anderen Baselines. Wir stellen unseren Code, das Modell und die Daten unter https://llava-rlhf.github.io öffentlich zur Verfügung.
English
Large Multimodal Models (LMM) are built across modalities and the
misalignment between two modalities can result in "hallucination", generating
textual outputs that are not grounded by the multimodal information in context.
To address the multimodal misalignment issue, we adapt the Reinforcement
Learning from Human Feedback (RLHF) from the text domain to the task of
vision-language alignment, where human annotators are asked to compare two
responses and pinpoint the more hallucinated one, and the vision-language model
is trained to maximize the simulated human rewards. We propose a new alignment
algorithm called Factually Augmented RLHF that augments the reward model with
additional factual information such as image captions and ground-truth
multi-choice options, which alleviates the reward hacking phenomenon in RLHF
and further improves the performance. We also enhance the GPT-4-generated
training data (for vision instruction tuning) with previously available
human-written image-text pairs to improve the general capabilities of our
model. To evaluate the proposed approach in real-world scenarios, we develop a
new evaluation benchmark MMHAL-BENCH with a special focus on penalizing
hallucinations. As the first LMM trained with RLHF, our approach achieves
remarkable improvement on the LLaVA-Bench dataset with the 94% performance
level of the text-only GPT-4 (while previous best methods can only achieve the
87% level), and an improvement by 60% on MMHAL-BENCH over other baselines. We
opensource our code, model, data at https://llava-rlhf.github.io.