ChatPaper.aiChatPaper

MM-RLHF : La prochaine étape dans l'alignement des LLM multimodaux

MM-RLHF: The Next Step Forward in Multimodal LLM Alignment

February 14, 2025
Auteurs: Yi-Fan Zhang, Tao Yu, Haochen Tian, Chaoyou Fu, Peiyan Li, Jianshu Zeng, Wulin Xie, Yang Shi, Huanyu Zhang, Junkang Wu, Xue Wang, Yibo Hu, Bin Wen, Fan Yang, Zhang Zhang, Tingting Gao, Di Zhang, Liang Wang, Rong Jin, Tieniu Tan
cs.AI

Résumé

Malgré des avancées notables dans les Modèles de Langage Multimodaux de Grande Taille (MLLMs), la plupart des modèles de pointe n'ont pas été rigoureusement alignés avec les préférences humaines. Cet écart persiste car la recherche actuelle sur l'alignement a principalement progressé dans des domaines spécifiques (par exemple, la réduction des hallucinations), tandis que la question plus large de savoir si l'alignement des modèles avec les préférences humaines peut systématiquement améliorer les capacités des MLLMs reste largement inexplorée. À cette fin, nous introduisons MM-RLHF, un ensemble de données contenant 120 000 paires de comparaison de préférences annotées de manière fine par des humains. Cet ensemble de données représente une avancée substantielle par rapport aux ressources existantes, offrant une taille, une diversité, une granularité d'annotation et une qualité supérieures. En exploitant cet ensemble de données, nous proposons plusieurs innovations clés pour améliorer à la fois la qualité des modèles de récompense et l'efficacité des algorithmes d'alignement. Notamment, nous introduisons un Modèle de Récompense Basé sur la Critique, qui génère des critiques des sorties du modèle avant d'attribuer des scores, offrant une interprétabilité accrue et un retour d'information plus informatif par rapport aux mécanismes de récompense scalaire traditionnels. De plus, nous proposons une Mise à l'Échelle Dynamique des Récompenses, une méthode qui ajuste le poids de la perte de chaque échantillon en fonction du signal de récompense, optimisant ainsi l'utilisation des paires de comparaison de haute qualité. Notre approche est rigoureusement évaluée sur 10 dimensions distinctes et 27 benchmarks, avec des résultats démontrant des améliorations significatives et cohérentes des performances du modèle. Plus précisément, le fine-tuning de LLaVA-ov-7B avec MM-RLHF et notre algorithme d'alignement entraîne une augmentation de 19,5 % des capacités conversationnelles et une amélioration de 60 % en matière de sécurité. Nous avons ouvert l'accès à l'ensemble de données de préférences, au modèle de récompense, au code d'entraînement et d'évaluation, ainsi qu'aux benchmarks de modélisation des récompenses et de sécurité. Pour plus de détails, veuillez visiter notre page de projet : https://mm-rlhf.github.io.
English
Despite notable advancements in Multimodal Large Language Models (MLLMs), most state-of-the-art models have not undergone thorough alignment with human preferences. This gap exists because current alignment research has primarily achieved progress in specific areas (e.g., hallucination reduction), while the broader question of whether aligning models with human preferences can systematically enhance MLLM capability remains largely unexplored. To this end, we introduce MM-RLHF, a dataset containing 120k fine-grained, human-annotated preference comparison pairs. This dataset represents a substantial advancement over existing resources, offering superior size, diversity, annotation granularity, and quality. Leveraging this dataset, we propose several key innovations to improve both the quality of reward models and the efficiency of alignment algorithms. Notably, we introduce a Critique-Based Reward Model, which generates critiques of model outputs before assigning scores, offering enhanced interpretability and more informative feedback compared to traditional scalar reward mechanisms. Additionally, we propose Dynamic Reward Scaling, a method that adjusts the loss weight of each sample according to the reward signal, thereby optimizing the use of high-quality comparison pairs. Our approach is rigorously evaluated across 10 distinct dimensions and 27 benchmarks, with results demonstrating significant and consistent improvements in model performance. Specifically, fine-tuning LLaVA-ov-7B with MM-RLHF and our alignment algorithm leads to a 19.5% increase in conversational abilities and a 60% improvement in safety. We have open-sourced the preference dataset, reward model, training and evaluation code, as well as reward modeling and safety benchmarks. For more details, please visit our project page: https://mm-rlhf.github.io.

Summary

AI-Generated Summary

PDF355February 17, 2025