RLHF-V: Naar betrouwbare MLLM's via gedragsafstemming vanuit fijnmazige corrigerende menselijke feedback
RLHF-V: Towards Trustworthy MLLMs via Behavior Alignment from Fine-grained Correctional Human Feedback
December 1, 2023
Auteurs: Tianyu Yu, Yuan Yao, Haoye Zhang, Taiwen He, Yifeng Han, Ganqu Cui, Jinyi Hu, Zhiyuan Liu, Hai-Tao Zheng, Maosong Sun, Tat-Seng Chua
cs.AI
Samenvatting
Multimodale Large Language Models (MLLMs) hebben recentelijk indrukwekkende capaciteiten getoond op het gebied van multimodale begrip, redenering en interactie. Echter, bestaande MLLMs lijden veelal aan ernstige hallucinatieproblemen, waarbij tekst wordt gegenereerd die niet feitelijk is gebaseerd op de bijbehorende afbeeldingen. Dit probleem maakt bestaande MLLMs onbetrouwbaar en dus onpraktisch in real-world toepassingen (met name in hoogrisicosituaties). Om deze uitdaging aan te pakken, presenteren we RLHF-V, dat de betrouwbaarheid van MLLMs verbetert via gedragsafstemming op basis van fijnmazige corrigerende menselijke feedback. Specifiek verzamelt RLHF-V menselijke voorkeuren in de vorm van segmentniveau-correcties op hallucinaties, en voert het dense direct preference optimization uit over de menselijke feedback. Uitgebreide experimenten op vijf benchmarks in zowel automatische als menselijke evaluatie tonen aan dat RLHF-V aanzienlijk betrouwbaarder MLLM-gedrag kan mogelijk maken met veelbelovende data- en rekenkundige efficiëntie. Opmerkelijk is dat RLHF-V, met slechts 1.4k geannoteerde data samples, de hallucinatiefrequentie van het basis-MLLM met 34,8% significant reduceert, en daarbij de concurrent LLaVA-RLHF, getraind op 10k geannoteerde data, overtreft. Het uiteindelijke model behaalt state-of-the-art prestaties in betrouwbaarheid onder open-source MLLMs, en toont een betere robuustheid dan GPT-4V in het voorkomen van hallucinaties veroorzaakt door overgeneralisatie. We maken onze code, model en data openbaar op https://github.com/RLHF-V/RLHF-V.
English
Multimodal Large Language Models (MLLMs) have recently demonstrated
impressive capabilities in multimodal understanding, reasoning, and
interaction. However, existing MLLMs prevalently suffer from serious
hallucination problems, generating text that is not factually grounded in
associated images. The problem makes existing MLLMs untrustworthy and thus
impractical in real-world (especially high-stakes) applications. To address the
challenge, we present RLHF-V, which enhances MLLM trustworthiness via behavior
alignment from fine-grained correctional human feedback. Specifically, RLHF-V
collects human preference in the form of segment-level corrections on
hallucinations, and performs dense direct preference optimization over the
human feedback. Comprehensive experiments on five benchmarks in both automatic
and human evaluation show that, RLHF-V can enable substantially more
trustworthy MLLM behaviors with promising data and computation efficiency.
Remarkably, using 1.4k annotated data samples, RLHF-V significantly reduces the
hallucination rate of the base MLLM by 34.8%, outperforming the concurrent
LLaVA-RLHF trained on 10k annotated data. The final model achieves
state-of-the-art performance in trustworthiness among open-source MLLMs, and
shows better robustness than GPT-4V in preventing hallucinations aroused from
over-generalization. We open-source our code, model, and data at
https://github.com/RLHF-V/RLHF-V.