ChatPaper.aiChatPaper

Modelo Unificado de Recompensa para Comprensión y Generación Multimodal

Unified Reward Model for Multimodal Understanding and Generation

March 7, 2025
Autores: Yibin Wang, Yuhang Zang, Hao Li, Cheng Jin, Jiaqi Wang
cs.AI

Resumen

Los recientes avances en la alineación de preferencias humanas han mejorado significativamente la generación y comprensión multimodal. Un enfoque clave es entrenar modelos de recompensa para guiar la optimización de preferencias. Sin embargo, los modelos existentes suelen ser específicos para tareas, lo que limita su adaptabilidad en diversas aplicaciones visuales. También argumentamos que aprender conjuntamente a evaluar múltiples tareas puede fomentar un efecto sinérgico, donde una mejor comprensión de imágenes mejora la evaluación de la generación de imágenes, y una evaluación refinada de imágenes beneficia la evaluación de videos a través de un mejor análisis de fotogramas. Con este fin, este artículo propone UnifiedReward, el primer modelo de recompensa unificado para la comprensión multimodal y la evaluación de generación, que permite tanto el ranking por pares como la puntuación puntual, y que puede emplearse para la alineación de preferencias en modelos de visión. Específicamente, (1) primero desarrollamos UnifiedReward en nuestro conjunto de datos a gran escala de preferencias humanas, que incluye tareas de generación y comprensión tanto de imágenes como de videos. (2) Luego, se utiliza para construir automáticamente datos de pares de preferencias de alta calidad basados en los modelos de visión, filtrando gradualmente sus salidas mediante ranking por pares y selección puntual. (3) Finalmente, estos datos se utilizan para la alineación de preferencias a través de la Optimización Directa de Preferencias (DPO). Los resultados experimentales demuestran que el aprendizaje conjunto para evaluar diversas tareas visuales puede generar beneficios mutuos sustanciales, y aplicamos nuestra metodología tanto a tareas de comprensión/generación de imágenes como de videos, mejorando significativamente el rendimiento en cada dominio.
English
Recent advances in human preference alignment have significantly enhanced multimodal generation and understanding. A key approach is training reward models to guide preference optimization. However, existing models are often task-specific, limiting their adaptability across diverse visual applications. We also argue that jointly learning to assess multiple tasks may foster a synergistic effect, where improved image understanding enhances image generation assessment, and refined image evaluation benefits video assessment through better frame analysis. To this end, this paper proposes UnifiedReward, the first unified reward model for multimodal understanding and generation assessment, enabling both pairwise ranking and pointwise scoring, which can be employed for vision model preference alignment. Specifically, (1) we first develop UnifiedReward on our constructed large-scale human preference dataset, including both image and video generation/understanding tasks. (2) Then, it is utilized to automatically construct high-quality preference pair data based on the vision models, fine-gradually filtering their outputs through pair ranking and point sifting. (3) Finally, these data are used for their preference alignment through Direct Preference Optimization (DPO). Experimental results demonstrate that joint learning to assess diverse visual tasks can lead to substantial mutual benefits and we apply our pipeline to both image and video understanding/generation tasks, significantly improving the performance in each domain.

Summary

AI-Generated Summary

PDF1233March 10, 2025