MM-RLHF: O Próximo Passo Adiante na Alinhamento Multimodal de LLM
MM-RLHF: The Next Step Forward in Multimodal LLM Alignment
February 14, 2025
Autores: Yi-Fan Zhang, Tao Yu, Haochen Tian, Chaoyou Fu, Peiyan Li, Jianshu Zeng, Wulin Xie, Yang Shi, Huanyu Zhang, Junkang Wu, Xue Wang, Yibo Hu, Bin Wen, Fan Yang, Zhang Zhang, Tingting Gao, Di Zhang, Liang Wang, Rong Jin, Tieniu Tan
cs.AI
Resumo
Apesar dos avanços notáveis nos Modelos de Linguagem Multimodais de Grande Escala (MLLMs), a maioria dos modelos de ponta não passou por um alinhamento minucioso com as preferências humanas. Essa lacuna existe porque a pesquisa atual de alinhamento alcançou progresso principalmente em áreas específicas (por exemplo, redução de alucinações), enquanto a questão mais ampla de se o alinhamento de modelos com as preferências humanas pode melhorar sistematicamente a capacidade dos MLLMs permanece amplamente inexplorada. Para isso, apresentamos o MM-RLHF, um conjunto de dados contendo 120 mil pares de comparação de preferências finamente detalhados e anotados por humanos. Este conjunto de dados representa um avanço substancial em relação aos recursos existentes, oferecendo tamanho superior, diversidade, granularidade de anotação e qualidade. Aproveitando este conjunto de dados, propomos várias inovações-chave para melhorar tanto a qualidade dos modelos de recompensa quanto a eficiência dos algoritmos de alinhamento. Notavelmente, introduzimos um Modelo de Recompensa Baseado em Críticas, que gera críticas das saídas do modelo antes de atribuir pontuações, oferecendo interpretabilidade aprimorada e feedback mais informativo em comparação com mecanismos de recompensa escalares tradicionais. Além disso, propomos o Dimensionamento Dinâmico de Recompensas, um método que ajusta o peso da perda de cada amostra de acordo com o sinal de recompensa, otimizando assim o uso de pares de comparação de alta qualidade. Nossa abordagem é rigorosamente avaliada em 10 dimensões distintas e 27 benchmarks, com resultados que demonstram melhorias significativas e consistentes no desempenho do modelo. Especificamente, o ajuste fino do LLaVA-ov-7B com o MM-RLHF e nosso algoritmo de alinhamento resulta em um aumento de 19,5% nas habilidades de conversação e uma melhoria de 60% na segurança. Disponibilizamos o conjunto de dados de preferências, o modelo de recompensa, o código de treinamento e avaliação, bem como os benchmarks de modelagem de recompensa e segurança em código aberto. Para mais detalhes, visite nossa página do projeto: https://mm-rlhf.github.io.
English
Despite notable advancements in Multimodal Large Language Models (MLLMs),
most state-of-the-art models have not undergone thorough alignment with human
preferences. This gap exists because current alignment research has primarily
achieved progress in specific areas (e.g., hallucination reduction), while the
broader question of whether aligning models with human preferences can
systematically enhance MLLM capability remains largely unexplored. To this end,
we introduce MM-RLHF, a dataset containing 120k fine-grained,
human-annotated preference comparison pairs. This dataset represents a
substantial advancement over existing resources, offering superior size,
diversity, annotation granularity, and quality. Leveraging this dataset, we
propose several key innovations to improve both the quality of reward models
and the efficiency of alignment algorithms. Notably, we introduce a
Critique-Based Reward Model, which generates critiques of model outputs before
assigning scores, offering enhanced interpretability and more informative
feedback compared to traditional scalar reward mechanisms. Additionally, we
propose Dynamic Reward Scaling, a method that adjusts the loss weight of each
sample according to the reward signal, thereby optimizing the use of
high-quality comparison pairs. Our approach is rigorously evaluated across
10 distinct dimensions and 27 benchmarks, with results
demonstrating significant and consistent improvements in model performance.
Specifically, fine-tuning LLaVA-ov-7B with MM-RLHF and our alignment algorithm
leads to a 19.5% increase in conversational abilities and a
60% improvement in safety.
We have open-sourced the preference dataset, reward model, training and
evaluation code, as well as reward modeling and safety benchmarks. For more
details, please visit our project page: https://mm-rlhf.github.io.Summary
AI-Generated Summary