MM-RLHF: El siguiente avance en la alineación multimodal de modelos de lenguaje grandes
MM-RLHF: The Next Step Forward in Multimodal LLM Alignment
February 14, 2025
Autores: Yi-Fan Zhang, Tao Yu, Haochen Tian, Chaoyou Fu, Peiyan Li, Jianshu Zeng, Wulin Xie, Yang Shi, Huanyu Zhang, Junkang Wu, Xue Wang, Yibo Hu, Bin Wen, Fan Yang, Zhang Zhang, Tingting Gao, Di Zhang, Liang Wang, Rong Jin, Tieniu Tan
cs.AI
Resumen
A pesar de los avances notables en los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés), la mayoría de los modelos de vanguardia no han sido sometidos a una alineación exhaustiva con las preferencias humanas. Esta brecha existe porque la investigación actual en alineación ha logrado progresos principalmente en áreas específicas (por ejemplo, la reducción de alucinaciones), mientras que la pregunta más amplia de si alinear los modelos con las preferencias humanas puede mejorar sistemáticamente la capacidad de los MLLMs sigue siendo en gran medida inexplorada. Con este fin, presentamos MM-RLHF, un conjunto de datos que contiene 120k pares de comparación de preferencias anotados por humanos con gran detalle. Este conjunto de datos representa un avance sustancial sobre los recursos existentes, ofreciendo un tamaño, diversidad, granularidad de anotación y calidad superiores. Aprovechando este conjunto de datos, proponemos varias innovaciones clave para mejorar tanto la calidad de los modelos de recompensa como la eficiencia de los algoritmos de alineación. En particular, introducimos un Modelo de Recompensa Basado en Críticas, que genera críticas de las salidas del modelo antes de asignar puntuaciones, ofreciendo una mayor interpretabilidad y retroalimentación más informativa en comparación con los mecanismos tradicionales de recompensa escalar. Además, proponemos Escalado Dinámico de Recompensas, un método que ajusta el peso de la pérdida de cada muestra según la señal de recompensa, optimizando así el uso de pares de comparación de alta calidad. Nuestro enfoque se evalúa rigurosamente en 10 dimensiones distintas y 27 benchmarks, con resultados que demuestran mejoras significativas y consistentes en el rendimiento del modelo. Específicamente, el ajuste fino de LLaVA-ov-7B con MM-RLHF y nuestro algoritmo de alineación conduce a un aumento del 19.5% en las habilidades conversacionales y una mejora del 60% en la seguridad. Hemos liberado el conjunto de datos de preferencias, el modelo de recompensa, el código de entrenamiento y evaluación, así como los benchmarks de modelado de recompensas y seguridad. Para más detalles, visite nuestra página del proyecto: https://mm-rlhf.github.io.
English
Despite notable advancements in Multimodal Large Language Models (MLLMs),
most state-of-the-art models have not undergone thorough alignment with human
preferences. This gap exists because current alignment research has primarily
achieved progress in specific areas (e.g., hallucination reduction), while the
broader question of whether aligning models with human preferences can
systematically enhance MLLM capability remains largely unexplored. To this end,
we introduce MM-RLHF, a dataset containing 120k fine-grained,
human-annotated preference comparison pairs. This dataset represents a
substantial advancement over existing resources, offering superior size,
diversity, annotation granularity, and quality. Leveraging this dataset, we
propose several key innovations to improve both the quality of reward models
and the efficiency of alignment algorithms. Notably, we introduce a
Critique-Based Reward Model, which generates critiques of model outputs before
assigning scores, offering enhanced interpretability and more informative
feedback compared to traditional scalar reward mechanisms. Additionally, we
propose Dynamic Reward Scaling, a method that adjusts the loss weight of each
sample according to the reward signal, thereby optimizing the use of
high-quality comparison pairs. Our approach is rigorously evaluated across
10 distinct dimensions and 27 benchmarks, with results
demonstrating significant and consistent improvements in model performance.
Specifically, fine-tuning LLaVA-ov-7B with MM-RLHF and our alignment algorithm
leads to a 19.5% increase in conversational abilities and a
60% improvement in safety.
We have open-sourced the preference dataset, reward model, training and
evaluation code, as well as reward modeling and safety benchmarks. For more
details, please visit our project page: https://mm-rlhf.github.io.Summary
AI-Generated Summary