ChatPaper.aiChatPaper

RLHF-V: Auf dem Weg zu vertrauenswürdigen MLLMs durch Verhaltensausrichtung basierend auf feinkörniger korrigierender menschlicher Rückmeldung

RLHF-V: Towards Trustworthy MLLMs via Behavior Alignment from Fine-grained Correctional Human Feedback

December 1, 2023
Autoren: Tianyu Yu, Yuan Yao, Haoye Zhang, Taiwen He, Yifeng Han, Ganqu Cui, Jinyi Hu, Zhiyuan Liu, Hai-Tao Zheng, Maosong Sun, Tat-Seng Chua
cs.AI

Zusammenfassung

Multimodale Large Language Models (MLLMs) haben in jüngster Zeit beeindruckende Fähigkeiten im Bereich des multimodalen Verstehens, des logischen Denkens und der Interaktion gezeigt. Allerdings leiden bestehende MLLMs häufig unter gravierenden Halluzinationsproblemen, bei denen Texte erzeugt werden, die nicht faktenbasiert mit den zugehörigen Bildern verknüpft sind. Dieses Problem macht bestehende MLLMs unzuverlässig und somit unpraktikabel für reale (insbesondere hochriskante) Anwendungen. Um diese Herausforderung zu bewältigen, stellen wir RLHF-V vor, das die Vertrauenswürdigkeit von MLLMs durch Verhaltensanpassung auf der Grundlage feinkörniger korrigierender menschlicher Rückmeldungen verbessert. Konkret sammelt RLHF-V menschliche Präferenzen in Form von segmentbezogenen Korrekturen von Halluzinationen und führt eine dichte direkte Präferenzoptimierung über die menschlichen Rückmeldungen durch. Umfassende Experimente auf fünf Benchmarks sowohl in automatisierten als auch in menschlichen Bewertungen zeigen, dass RLHF-V deutlich vertrauenswürdigere MLLM-Verhaltensweisen mit vielversprechender Daten- und Recheneffizienz ermöglicht. Bemerkenswerterweise reduziert RLHF-V mit 1,4k annotierten Datenproben die Halluzinationsrate des Basismodells um 34,8 % und übertrifft damit das gleichzeitige LLaVA-RLHF, das auf 10k annotierten Daten trainiert wurde. Das finale Modell erreicht state-of-the-art Leistungen in Bezug auf Vertrauenswürdigkeit unter Open-Source-MLLMs und zeigt eine bessere Robustheit als GPT-4V bei der Verhinderung von Halluzinationen, die durch Überverallgemeinerung entstehen. Wir stellen unseren Code, das Modell und die Daten unter https://github.com/RLHF-V/RLHF-V als Open Source zur Verfügung.
English
Multimodal Large Language Models (MLLMs) have recently demonstrated impressive capabilities in multimodal understanding, reasoning, and interaction. However, existing MLLMs prevalently suffer from serious hallucination problems, generating text that is not factually grounded in associated images. The problem makes existing MLLMs untrustworthy and thus impractical in real-world (especially high-stakes) applications. To address the challenge, we present RLHF-V, which enhances MLLM trustworthiness via behavior alignment from fine-grained correctional human feedback. Specifically, RLHF-V collects human preference in the form of segment-level corrections on hallucinations, and performs dense direct preference optimization over the human feedback. Comprehensive experiments on five benchmarks in both automatic and human evaluation show that, RLHF-V can enable substantially more trustworthy MLLM behaviors with promising data and computation efficiency. Remarkably, using 1.4k annotated data samples, RLHF-V significantly reduces the hallucination rate of the base MLLM by 34.8%, outperforming the concurrent LLaVA-RLHF trained on 10k annotated data. The final model achieves state-of-the-art performance in trustworthiness among open-source MLLMs, and shows better robustness than GPT-4V in preventing hallucinations aroused from over-generalization. We open-source our code, model, and data at https://github.com/RLHF-V/RLHF-V.
PDF121December 15, 2024