Alineación de Modelos Multimodales de Gran Escala con RLHF Aumentado con Hechos

Aligning Large Multimodal Models with Factually Augmented RLHF

September 25, 2023
Autores: Zhiqing Sun, Sheng Shen, Shengcao Cao, Haotian Liu, Chunyuan Li, Yikang Shen, Chuang Gan, Liang-Yan Gui, Yu-Xiong Wang, Yiming Yang, Kurt Keutzer, Trevor Darrell
cs.AI

Resumen

Los Modelos Multimodales Grandes (LMM, por sus siglas en inglés) se construyen a través de múltiples modalidades, y la desalineación entre dos modalidades puede resultar en "alucinaciones", generando salidas textuales que no están fundamentadas en la información multimodal del contexto. Para abordar el problema de la desalineación multimodal, adaptamos el Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF, por sus siglas en inglés) del dominio del texto a la tarea de alineación visión-lenguaje, donde se solicita a anotadores humanos que comparen dos respuestas y señalen la más alucinada, y el modelo visión-lenguaje se entrena para maximizar las recompensas humanas simuladas. Proponemos un nuevo algoritmo de alineación llamado RLHF Aumentado con Hechos, que enriquece el modelo de recompensa con información factual adicional, como descripciones de imágenes y opciones múltiples de referencia, lo que mitiga el fenómeno de "hackeo de recompensas" en RLHF y mejora aún más el rendimiento. También mejoramos los datos de entrenamiento generados por GPT-4 (para el ajuste de instrucciones visuales) con pares imagen-texto escritos por humanos previamente disponibles, para mejorar las capacidades generales de nuestro modelo. Para evaluar el enfoque propuesto en escenarios del mundo real, desarrollamos un nuevo punto de referencia de evaluación, MMHAL-BENCH, con un enfoque especial en penalizar las alucinaciones. Como el primer LMM entrenado con RLHF, nuestro enfoque logra una mejora notable en el conjunto de datos LLaVA-Bench, alcanzando el 94% del nivel de rendimiento de GPT-4 solo con texto (mientras que los mejores métodos anteriores solo alcanzan el 87%), y una mejora del 60% en MMHAL-BENCH en comparación con otras líneas base. Hemos liberado nuestro código, modelo y datos en https://llava-rlhf.github.io.
English
Large Multimodal Models (LMM) are built across modalities and the misalignment between two modalities can result in "hallucination", generating textual outputs that are not grounded by the multimodal information in context. To address the multimodal misalignment issue, we adapt the Reinforcement Learning from Human Feedback (RLHF) from the text domain to the task of vision-language alignment, where human annotators are asked to compare two responses and pinpoint the more hallucinated one, and the vision-language model is trained to maximize the simulated human rewards. We propose a new alignment algorithm called Factually Augmented RLHF that augments the reward model with additional factual information such as image captions and ground-truth multi-choice options, which alleviates the reward hacking phenomenon in RLHF and further improves the performance. We also enhance the GPT-4-generated training data (for vision instruction tuning) with previously available human-written image-text pairs to improve the general capabilities of our model. To evaluate the proposed approach in real-world scenarios, we develop a new evaluation benchmark MMHAL-BENCH with a special focus on penalizing hallucinations. As the first LMM trained with RLHF, our approach achieves remarkable improvement on the LLaVA-Bench dataset with the 94% performance level of the text-only GPT-4 (while previous best methods can only achieve the 87% level), and an improvement by 60% on MMHAL-BENCH over other baselines. We opensource our code, model, data at https://llava-rlhf.github.io.
PDF312December 15, 2024