MM-RLHF: De volgende stap vooruit in de uitlijning van multimodale grote taalmodellen
MM-RLHF: The Next Step Forward in Multimodal LLM Alignment
February 14, 2025
Auteurs: Yi-Fan Zhang, Tao Yu, Haochen Tian, Chaoyou Fu, Peiyan Li, Jianshu Zeng, Wulin Xie, Yang Shi, Huanyu Zhang, Junkang Wu, Xue Wang, Yibo Hu, Bin Wen, Fan Yang, Zhang Zhang, Tingting Gao, Di Zhang, Liang Wang, Rong Jin, Tieniu Tan
cs.AI
Samenvatting
Ondanks aanzienlijke vooruitgang in Multimodale Grote Taalmodellen (MLLMs), hebben de meeste state-of-the-art modellen nog geen grondige afstemming met menselijke voorkeuren ondergaan. Deze kloof bestaat omdat het huidige onderzoek naar afstemming voornamelijk vooruitgang heeft geboekt in specifieke gebieden (bijvoorbeeld het verminderen van hallucinaties), terwijl de bredere vraag of het afstemmen van modellen op menselijke voorkeuren de capaciteit van MLLMs systematisch kan verbeteren, grotendeels onontgonnen blijft. Daarom introduceren we MM-RLHF, een dataset met 120k fijnmazige, door mensen geannoteerde voorkeursvergelijkingen. Deze dataset vertegenwoordigt een aanzienlijke vooruitgang ten opzichte van bestaande bronnen, met een superieure omvang, diversiteit, annotatiegranulariteit en kwaliteit. Gebruikmakend van deze dataset, stellen we verschillende belangrijke innovaties voor om zowel de kwaliteit van beloningsmodellen als de efficiëntie van afstemmingsalgoritmen te verbeteren. Opmerkelijk is de introductie van een Kritiek-Gebaseerd Beloningsmodel, dat kritieken op modeloutputs genereert voordat scores worden toegekend, wat een verbeterde interpreteerbaarheid en meer informatieve feedback biedt in vergelijking met traditionele scalaire beloningsmechanismen. Daarnaast stellen we Dynamische Beloningsschaling voor, een methode die het verliesgewicht van elk monster aanpast volgens het beloningssignaal, waardoor het gebruik van hoogwaardige vergelijkingsparen wordt geoptimaliseerd. Onze aanpak wordt rigoureus geëvalueerd over 10 verschillende dimensies en 27 benchmarks, met resultaten die significante en consistente verbeteringen in modelprestaties aantonen. Specifiek leidt het finetunen van LLaVA-ov-7B met MM-RLHF en ons afstemmingsalgoritme tot een toename van 19,5% in conversatievaardigheden en een verbetering van 60% in veiligheid. We hebben de voorkeursdataset, het beloningsmodel, de trainings- en evaluatiecode, evenals de beloningsmodellering en veiligheidsbenchmarks openbaar gemaakt. Voor meer details, bezoek onze projectpagina: https://mm-rlhf.github.io.
English
Despite notable advancements in Multimodal Large Language Models (MLLMs),
most state-of-the-art models have not undergone thorough alignment with human
preferences. This gap exists because current alignment research has primarily
achieved progress in specific areas (e.g., hallucination reduction), while the
broader question of whether aligning models with human preferences can
systematically enhance MLLM capability remains largely unexplored. To this end,
we introduce MM-RLHF, a dataset containing 120k fine-grained,
human-annotated preference comparison pairs. This dataset represents a
substantial advancement over existing resources, offering superior size,
diversity, annotation granularity, and quality. Leveraging this dataset, we
propose several key innovations to improve both the quality of reward models
and the efficiency of alignment algorithms. Notably, we introduce a
Critique-Based Reward Model, which generates critiques of model outputs before
assigning scores, offering enhanced interpretability and more informative
feedback compared to traditional scalar reward mechanisms. Additionally, we
propose Dynamic Reward Scaling, a method that adjusts the loss weight of each
sample according to the reward signal, thereby optimizing the use of
high-quality comparison pairs. Our approach is rigorously evaluated across
10 distinct dimensions and 27 benchmarks, with results
demonstrating significant and consistent improvements in model performance.
Specifically, fine-tuning LLaVA-ov-7B with MM-RLHF and our alignment algorithm
leads to a 19.5% increase in conversational abilities and a
60% improvement in safety.
We have open-sourced the preference dataset, reward model, training and
evaluation code, as well as reward modeling and safety benchmarks. For more
details, please visit our project page: https://mm-rlhf.github.io.Summary
AI-Generated Summary