RLHF-V: Hacia MLLMs Confiables mediante Alineación de Comportamiento a partir de Retroalimentación Humana Correctiva Detallada
RLHF-V: Towards Trustworthy MLLMs via Behavior Alignment from Fine-grained Correctional Human Feedback
December 1, 2023
Autores: Tianyu Yu, Yuan Yao, Haoye Zhang, Taiwen He, Yifeng Han, Ganqu Cui, Jinyi Hu, Zhiyuan Liu, Hai-Tao Zheng, Maosong Sun, Tat-Seng Chua
cs.AI
Resumen
Los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) han demostrado recientemente capacidades impresionantes en comprensión, razonamiento e interacción multimodal. Sin embargo, los MLLMs existentes padecen predominantemente de serios problemas de alucinación, generando texto que no está fundamentado en las imágenes asociadas. Este problema hace que los MLLMs actuales sean poco confiables y, por lo tanto, poco prácticos en aplicaciones del mundo real (especialmente en situaciones de alto riesgo). Para abordar este desafío, presentamos RLHF-V, que mejora la confiabilidad de los MLLMs mediante la alineación de comportamientos a partir de retroalimentación humana correctiva de gran detalle. Específicamente, RLHF-V recopila preferencias humanas en forma de correcciones a nivel de segmento sobre alucinaciones, y realiza una optimización directa y densa de preferencias sobre la retroalimentación humana. Experimentos exhaustivos en cinco benchmarks, tanto en evaluación automática como humana, muestran que RLHF-V puede permitir comportamientos de MLLMs sustancialmente más confiables con una eficiencia prometedora en datos y cómputo. Notablemente, utilizando 1.4k muestras de datos anotadas, RLHF-V reduce significativamente la tasa de alucinación del MLLM base en un 34.8%, superando al concurrente LLaVA-RLHF entrenado con 10k muestras de datos anotadas. El modelo final logra un rendimiento de vanguardia en confiabilidad entre los MLLMs de código abierto, y muestra una mejor robustez que GPT-4V en la prevención de alucinaciones provocadas por sobre-generalización. Hemos liberado nuestro código, modelo y datos en https://github.com/RLHF-V/RLHF-V.
English
Multimodal Large Language Models (MLLMs) have recently demonstrated
impressive capabilities in multimodal understanding, reasoning, and
interaction. However, existing MLLMs prevalently suffer from serious
hallucination problems, generating text that is not factually grounded in
associated images. The problem makes existing MLLMs untrustworthy and thus
impractical in real-world (especially high-stakes) applications. To address the
challenge, we present RLHF-V, which enhances MLLM trustworthiness via behavior
alignment from fine-grained correctional human feedback. Specifically, RLHF-V
collects human preference in the form of segment-level corrections on
hallucinations, and performs dense direct preference optimization over the
human feedback. Comprehensive experiments on five benchmarks in both automatic
and human evaluation show that, RLHF-V can enable substantially more
trustworthy MLLM behaviors with promising data and computation efficiency.
Remarkably, using 1.4k annotated data samples, RLHF-V significantly reduces the
hallucination rate of the base MLLM by 34.8%, outperforming the concurrent
LLaVA-RLHF trained on 10k annotated data. The final model achieves
state-of-the-art performance in trustworthiness among open-source MLLMs, and
shows better robustness than GPT-4V in preventing hallucinations aroused from
over-generalization. We open-source our code, model, and data at
https://github.com/RLHF-V/RLHF-V.