MJ-Bench: ¿Es realmente un buen juez tu modelo de recompensa multimodal para la generación de texto a imagen?MJ-Bench: Is Your Multimodal Reward Model Really a Good Judge for
Text-to-Image Generation?
Aunque los modelos de texto a imagen como DALLE-3 y Stable Diffusion están proliferando rápidamente, a menudo enfrentan desafíos como la alucinación, el sesgo y la producción de salidas inseguras y de baja calidad. Para abordar eficazmente estos problemas, es crucial alinear estos modelos con comportamientos deseados basados en retroalimentación de un juez multimodal. A pesar de su importancia, los jueces multimodales actuales a menudo no son evaluados adecuadamente en cuanto a sus capacidades y limitaciones, lo que potencialmente puede llevar a desalineaciones y resultados inseguros en el ajuste fino. Para abordar este problema, presentamos MJ-Bench, un nuevo conjunto de pruebas que incorpora un conjunto de datos de preferencias exhaustivo para evaluar jueces multimodales en la provisión de retroalimentación para modelos de generación de imágenes desde cuatro perspectivas clave: alineación, seguridad, calidad de imagen y sesgo. Específicamente, evaluamos una amplia variedad de jueces multimodales, incluidos modelos de puntuación basados en CLIP de menor tamaño, VLM de código abierto (por ejemplo, familia LLaVA) y VLM de código cerrado (por ejemplo, GPT-4o, Claude 3) en cada subcategoría descompuesta de nuestro conjunto de datos de preferencias. Los experimentos revelan que los VLM de código cerrado generalmente brindan una mejor retroalimentación, destacándose GPT-4o sobre otros jueces en promedio. En comparación con los VLM de código abierto, los modelos de puntuación de menor tamaño pueden ofrecer una mejor retroalimentación en cuanto a la alineación texto-imagen y la calidad de imagen, mientras que los VLM brindan una retroalimentación más precisa en cuanto a seguridad y sesgo de generación debido a sus capacidades de razonamiento más sólidas. Estudios adicionales en la escala de retroalimentación revelan que los jueces VLM generalmente pueden proporcionar retroalimentación más precisa y estable en lenguaje natural (escala Likert) que en escalas numéricas. Es importante destacar que las evaluaciones humanas en modelos ajustados de extremo a extremo utilizando retroalimentación separada de estos jueces multimodales arrojan conclusiones similares, confirmando aún más la efectividad de MJ-Bench. Todos los datos, código y modelos están disponibles en https://huggingface.co/MJ-Bench.