MM-RLHF: Der nächste Schritt in der multimodalen LLM-Ausrichtung
MM-RLHF: The Next Step Forward in Multimodal LLM Alignment
February 14, 2025
Autoren: Yi-Fan Zhang, Tao Yu, Haochen Tian, Chaoyou Fu, Peiyan Li, Jianshu Zeng, Wulin Xie, Yang Shi, Huanyu Zhang, Junkang Wu, Xue Wang, Yibo Hu, Bin Wen, Fan Yang, Zhang Zhang, Tingting Gao, Di Zhang, Liang Wang, Rong Jin, Tieniu Tan
cs.AI
Zusammenfassung
Trotz bemerkenswerter Fortschritte bei Multimodalen Großen Sprachmodellen (MLLMs) wurden die meisten modernsten Modelle noch nicht gründlich mit menschlichen Präferenzen abgestimmt. Diese Lücke besteht, da die aktuelle Abstimmungsforschung hauptsächlich Fortschritte in spezifischen Bereichen erzielt hat (z. B. Reduzierung von Halluzinationen), während die allgemeinere Frage, ob die Abstimmung von Modellen auf menschliche Präferenzen die Fähigkeiten von MLLMs systematisch verbessern kann, weitgehend unerforscht bleibt. Zu diesem Zweck stellen wir MM-RLHF vor, ein Datenset mit 120.000 fein abgestuften, menschenannotierten Präferenzvergleichspaaren. Dieses Datenset stellt einen erheblichen Fortschritt gegenüber bestehenden Ressourcen dar und bietet eine überlegene Größe, Vielfalt, Annotierungsgenauigkeit und Qualität. Unter Nutzung dieses Datensets schlagen wir mehrere Schlüsselinnovationen vor, um sowohl die Qualität der Belohnungsmodelle als auch die Effizienz der Abstimmungsalgorithmen zu verbessern. Insbesondere führen wir ein Kritikbasiertes Belohnungsmodell ein, das Kritiken der Modellausgaben generiert, bevor Punkte vergeben werden, was im Vergleich zu traditionellen skalaren Belohnungsmechanismen eine verbesserte Interpretierbarkeit und informativere Rückmeldungen bietet. Darüber hinaus schlagen wir Dynamische Belohnungsskalierung vor, eine Methode, die das Verlustgewicht jedes Beispiels entsprechend dem Belohnungssignal anpasst und somit die Nutzung hochwertiger Vergleichspaare optimiert. Unser Ansatz wird über 10 verschiedene Dimensionen und 27 Benchmarks hinweg rigoros evaluiert, wobei die Ergebnisse signifikante und konsistente Verbesserungen in der Modellleistung zeigen. Insbesondere führt das Feintuning von LLaVA-ov-7B mit MM-RLHF und unserem Abstimmungsalgorithmus zu einer 19,5%igen Steigerung der Konversationsfähigkeiten und einer 60%igen Verbesserung der Sicherheit. Wir haben das Präferenzdatenset, das Belohnungsmodell, den Trainings- und Evaluierungscode sowie Belohnungsmodellierungs- und Sicherheitsbenchmarks als Open Source veröffentlicht. Für weitere Details besuchen Sie bitte unsere Projektseite: https://mm-rlhf.github.io.
English
Despite notable advancements in Multimodal Large Language Models (MLLMs),
most state-of-the-art models have not undergone thorough alignment with human
preferences. This gap exists because current alignment research has primarily
achieved progress in specific areas (e.g., hallucination reduction), while the
broader question of whether aligning models with human preferences can
systematically enhance MLLM capability remains largely unexplored. To this end,
we introduce MM-RLHF, a dataset containing 120k fine-grained,
human-annotated preference comparison pairs. This dataset represents a
substantial advancement over existing resources, offering superior size,
diversity, annotation granularity, and quality. Leveraging this dataset, we
propose several key innovations to improve both the quality of reward models
and the efficiency of alignment algorithms. Notably, we introduce a
Critique-Based Reward Model, which generates critiques of model outputs before
assigning scores, offering enhanced interpretability and more informative
feedback compared to traditional scalar reward mechanisms. Additionally, we
propose Dynamic Reward Scaling, a method that adjusts the loss weight of each
sample according to the reward signal, thereby optimizing the use of
high-quality comparison pairs. Our approach is rigorously evaluated across
10 distinct dimensions and 27 benchmarks, with results
demonstrating significant and consistent improvements in model performance.
Specifically, fine-tuning LLaVA-ov-7B with MM-RLHF and our alignment algorithm
leads to a 19.5% increase in conversational abilities and a
60% improvement in safety.
We have open-sourced the preference dataset, reward model, training and
evaluation code, as well as reward modeling and safety benchmarks. For more
details, please visit our project page: https://mm-rlhf.github.io.Summary
AI-Generated Summary