RLHF-V: Verso MLLM affidabili attraverso l'allineamento comportamentale da feedback umano correttivo granulare
RLHF-V: Towards Trustworthy MLLMs via Behavior Alignment from Fine-grained Correctional Human Feedback
December 1, 2023
Autori: Tianyu Yu, Yuan Yao, Haoye Zhang, Taiwen He, Yifeng Han, Ganqu Cui, Jinyi Hu, Zhiyuan Liu, Hai-Tao Zheng, Maosong Sun, Tat-Seng Chua
cs.AI
Abstract
I Modelli Linguistici Multimodali di Grandi Dimensioni (MLLMs) hanno recentemente dimostrato capacità impressionanti nella comprensione, ragionamento e interazione multimodale. Tuttavia, gli MLLM esistenti soffrono prevalentemente di gravi problemi di allucinazione, generando testi che non sono fondati fattualmente nelle immagini associate. Questo problema rende gli MLLM esistenti inaffidabili e quindi impraticabili in applicazioni del mondo reale (soprattutto ad alto rischio). Per affrontare questa sfida, presentiamo RLHF-V, che migliora l'affidabilità degli MLLM attraverso l'allineamento comportamentale basato su feedback correttivi umani granulari. Nello specifico, RLHF-V raccoglie le preferenze umane sotto forma di correzioni a livello di segmento sulle allucinazioni e esegue un'ottimizzazione diretta e densa delle preferenze sul feedback umano. Esperimenti completi su cinque benchmark sia in valutazione automatica che umana mostrano che RLHF-V può abilitare comportamenti MLLM sostanzialmente più affidabili con una promettente efficienza di dati e calcolo. Notevolmente, utilizzando 1.4k campioni di dati annotati, RLHF-V riduce significativamente il tasso di allucinazione del MLLM base del 34.8%, superando il concorrente LLaVA-RLHF addestrato su 10k dati annotati. Il modello finale raggiunge prestazioni all'avanguardia in termini di affidabilità tra gli MLLM open-source e mostra una migliore robustezza rispetto a GPT-4V nel prevenire allucinazioni causate da sovra-generalizzazione. Rendiamo disponibili il nostro codice, modello e dati all'indirizzo https://github.com/RLHF-V/RLHF-V.
English
Multimodal Large Language Models (MLLMs) have recently demonstrated
impressive capabilities in multimodal understanding, reasoning, and
interaction. However, existing MLLMs prevalently suffer from serious
hallucination problems, generating text that is not factually grounded in
associated images. The problem makes existing MLLMs untrustworthy and thus
impractical in real-world (especially high-stakes) applications. To address the
challenge, we present RLHF-V, which enhances MLLM trustworthiness via behavior
alignment from fine-grained correctional human feedback. Specifically, RLHF-V
collects human preference in the form of segment-level corrections on
hallucinations, and performs dense direct preference optimization over the
human feedback. Comprehensive experiments on five benchmarks in both automatic
and human evaluation show that, RLHF-V can enable substantially more
trustworthy MLLM behaviors with promising data and computation efficiency.
Remarkably, using 1.4k annotated data samples, RLHF-V significantly reduces the
hallucination rate of the base MLLM by 34.8%, outperforming the concurrent
LLaVA-RLHF trained on 10k annotated data. The final model achieves
state-of-the-art performance in trustworthiness among open-source MLLMs, and
shows better robustness than GPT-4V in preventing hallucinations aroused from
over-generalization. We open-source our code, model, and data at
https://github.com/RLHF-V/RLHF-V.