RLHF-V: Rumo a MLLMs Confiáveis por meio do Alinhamento Comportamental a partir de Feedback Humano Correcional de Alta Granularidade
RLHF-V: Towards Trustworthy MLLMs via Behavior Alignment from Fine-grained Correctional Human Feedback
December 1, 2023
Autores: Tianyu Yu, Yuan Yao, Haoye Zhang, Taiwen He, Yifeng Han, Ganqu Cui, Jinyi Hu, Zhiyuan Liu, Hai-Tao Zheng, Maosong Sun, Tat-Seng Chua
cs.AI
Resumo
Modelos de Linguagem Multimodais de Grande Escala (MLLMs) demonstraram recentemente capacidades impressionantes em compreensão, raciocínio e interação multimodal. No entanto, os MLLMs existentes sofrem predominantemente de sérios problemas de alucinação, gerando textos que não estão factualmente fundamentados nas imagens associadas. Esse problema torna os MLLMs existentes pouco confiáveis e, portanto, impraticáveis em aplicações do mundo real (especialmente em situações de alto risco). Para enfrentar esse desafio, apresentamos o RLHF-V, que melhora a confiabilidade dos MLLMs por meio do alinhamento comportamental com feedback humano corretivo detalhado. Especificamente, o RLHF-V coleta preferências humanas na forma de correções em nível de segmento sobre alucinações e realiza uma otimização direta e densa de preferências com base no feedback humano. Experimentos abrangentes em cinco benchmarks, tanto em avaliação automática quanto humana, mostram que o RLHF-V pode habilitar comportamentos de MLLMs substancialmente mais confiáveis, com promissora eficiência em dados e computação. Notavelmente, usando 1,4 mil amostras de dados anotadas, o RLHF-V reduz significativamente a taxa de alucinação do MLLM base em 34,8%, superando o LLaVA-RLHF, treinado com 10 mil dados anotados. O modelo final alcança desempenho de ponta em confiabilidade entre os MLLMs de código aberto e mostra maior robustez que o GPT-4V na prevenção de alucinações causadas por generalizações excessivas. Disponibilizamos nosso código, modelo e dados em https://github.com/RLHF-V/RLHF-V.
English
Multimodal Large Language Models (MLLMs) have recently demonstrated
impressive capabilities in multimodal understanding, reasoning, and
interaction. However, existing MLLMs prevalently suffer from serious
hallucination problems, generating text that is not factually grounded in
associated images. The problem makes existing MLLMs untrustworthy and thus
impractical in real-world (especially high-stakes) applications. To address the
challenge, we present RLHF-V, which enhances MLLM trustworthiness via behavior
alignment from fine-grained correctional human feedback. Specifically, RLHF-V
collects human preference in the form of segment-level corrections on
hallucinations, and performs dense direct preference optimization over the
human feedback. Comprehensive experiments on five benchmarks in both automatic
and human evaluation show that, RLHF-V can enable substantially more
trustworthy MLLM behaviors with promising data and computation efficiency.
Remarkably, using 1.4k annotated data samples, RLHF-V significantly reduces the
hallucination rate of the base MLLM by 34.8%, outperforming the concurrent
LLaVA-RLHF trained on 10k annotated data. The final model achieves
state-of-the-art performance in trustworthiness among open-source MLLMs, and
shows better robustness than GPT-4V in preventing hallucinations aroused from
over-generalization. We open-source our code, model, and data at
https://github.com/RLHF-V/RLHF-V.