MM-RLHF: Il prossimo passo avanti nell'allineamento multimodale dei modelli linguistici di grandi dimensioni
MM-RLHF: The Next Step Forward in Multimodal LLM Alignment
February 14, 2025
Autori: Yi-Fan Zhang, Tao Yu, Haochen Tian, Chaoyou Fu, Peiyan Li, Jianshu Zeng, Wulin Xie, Yang Shi, Huanyu Zhang, Junkang Wu, Xue Wang, Yibo Hu, Bin Wen, Fan Yang, Zhang Zhang, Tingting Gao, Di Zhang, Liang Wang, Rong Jin, Tieniu Tan
cs.AI
Abstract
Nonostante i notevoli progressi nei Modelli Linguistici Multimodali di Grande Scala (MLLMs), la maggior parte dei modelli all'avanguardia non ha subito un allineamento approfondito con le preferenze umane. Questa lacuna esiste perché la ricerca attuale sull'allineamento ha ottenuto progressi principalmente in aree specifiche (ad esempio, la riduzione delle allucinazioni), mentre la questione più ampia se l'allineamento dei modelli con le preferenze umane possa migliorare sistematicamente le capacità degli MLLM rimane in gran parte inesplorata. A tal fine, introduciamo MM-RLHF, un dataset contenente 120k coppie di confronto di preferenze annotate in modo dettagliato da esseri umani. Questo dataset rappresenta un progresso sostanziale rispetto alle risorse esistenti, offrendo dimensioni superiori, diversità, granularità delle annotazioni e qualità. Sfruttando questo dataset, proponiamo diverse innovazioni chiave per migliorare sia la qualità dei modelli di ricompensa che l'efficienza degli algoritmi di allineamento. In particolare, introduciamo un Modello di Ricompensa Basato su Critiche, che genera critiche degli output del modello prima di assegnare i punteggi, offrendo una maggiore interpretabilità e un feedback più informativo rispetto ai tradizionali meccanismi di ricompensa scalare. Inoltre, proponiamo il Ridimensionamento Dinamico della Ricompensa, un metodo che regola il peso della perdita di ciascun campione in base al segnale di ricompensa, ottimizzando così l'uso delle coppie di confronto di alta qualità. Il nostro approccio è rigorosamente valutato attraverso 10 dimensioni distinte e 27 benchmark, con risultati che dimostrano miglioramenti significativi e consistenti nelle prestazioni del modello. Nello specifico, il fine-tuning di LLaVA-ov-7B con MM-RLHF e il nostro algoritmo di allineamento porta a un aumento del 19,5% nelle capacità conversazionali e a un miglioramento del 60% nella sicurezza. Abbiamo reso open-source il dataset delle preferenze, il modello di ricompensa, il codice di addestramento e valutazione, nonché i benchmark per la modellazione delle ricompense e la sicurezza. Per maggiori dettagli, visitate la nostra pagina del progetto: https://mm-rlhf.github.io.
English
Despite notable advancements in Multimodal Large Language Models (MLLMs),
most state-of-the-art models have not undergone thorough alignment with human
preferences. This gap exists because current alignment research has primarily
achieved progress in specific areas (e.g., hallucination reduction), while the
broader question of whether aligning models with human preferences can
systematically enhance MLLM capability remains largely unexplored. To this end,
we introduce MM-RLHF, a dataset containing 120k fine-grained,
human-annotated preference comparison pairs. This dataset represents a
substantial advancement over existing resources, offering superior size,
diversity, annotation granularity, and quality. Leveraging this dataset, we
propose several key innovations to improve both the quality of reward models
and the efficiency of alignment algorithms. Notably, we introduce a
Critique-Based Reward Model, which generates critiques of model outputs before
assigning scores, offering enhanced interpretability and more informative
feedback compared to traditional scalar reward mechanisms. Additionally, we
propose Dynamic Reward Scaling, a method that adjusts the loss weight of each
sample according to the reward signal, thereby optimizing the use of
high-quality comparison pairs. Our approach is rigorously evaluated across
10 distinct dimensions and 27 benchmarks, with results
demonstrating significant and consistent improvements in model performance.
Specifically, fine-tuning LLaVA-ov-7B with MM-RLHF and our alignment algorithm
leads to a 19.5% increase in conversational abilities and a
60% improvement in safety.
We have open-sourced the preference dataset, reward model, training and
evaluation code, as well as reward modeling and safety benchmarks. For more
details, please visit our project page: https://mm-rlhf.github.io.Summary
AI-Generated Summary