RLHF-V:細粒度の修正的ヒューマンフィードバックによる行動アライメントを通じた信頼性の高いMLLMsの実現に向けて
RLHF-V: Towards Trustworthy MLLMs via Behavior Alignment from Fine-grained Correctional Human Feedback
December 1, 2023
著者: Tianyu Yu, Yuan Yao, Haoye Zhang, Taiwen He, Yifeng Han, Ganqu Cui, Jinyi Hu, Zhiyuan Liu, Hai-Tao Zheng, Maosong Sun, Tat-Seng Chua
cs.AI
要旨
マルチモーダル大規模言語モデル(MLLMs)は最近、マルチモーダル理解、推論、およびインタラクションにおいて印象的な能力を示しています。しかし、既存のMLLMsは、関連する画像に事実に基づかないテキストを生成する深刻な幻覚問題に広く悩まされています。この問題により、既存のMLLMsは信頼性が低く、特に重要な場面での実世界の応用には不向きです。この課題に対処するため、我々はRLHF-Vを提案します。RLHF-Vは、細かい修正を伴う人間のフィードバックから行動の整合性を高めることで、MLLMsの信頼性を向上させます。具体的には、RLHF-Vは幻覚に対するセグメントレベルの修正という形で人間の選好を収集し、そのフィードバックに対して密な直接選好最適化を行います。自動評価と人間評価の両方における5つのベンチマークでの包括的な実験により、RLHF-Vがデータと計算効率の面で有望な信頼性の高いMLLMの行動を実現できることが示されています。注目すべきは、1.4kの注釈付きデータサンプルを使用して、RLHF-VがベースMLLMの幻覚率を34.8%大幅に減少させ、10kの注釈付きデータでトレーニングされた同時期のLLaVA-RLHFを上回ることです。最終モデルは、オープンソースのMLLMsの中で信頼性において最先端の性能を達成し、過剰一般化から引き起こされる幻覚を防ぐ点でGPT-4Vよりも優れた堅牢性を示します。我々はコード、モデル、データをhttps://github.com/RLHF-V/RLHF-Vで公開しています。
English
Multimodal Large Language Models (MLLMs) have recently demonstrated
impressive capabilities in multimodal understanding, reasoning, and
interaction. However, existing MLLMs prevalently suffer from serious
hallucination problems, generating text that is not factually grounded in
associated images. The problem makes existing MLLMs untrustworthy and thus
impractical in real-world (especially high-stakes) applications. To address the
challenge, we present RLHF-V, which enhances MLLM trustworthiness via behavior
alignment from fine-grained correctional human feedback. Specifically, RLHF-V
collects human preference in the form of segment-level corrections on
hallucinations, and performs dense direct preference optimization over the
human feedback. Comprehensive experiments on five benchmarks in both automatic
and human evaluation show that, RLHF-V can enable substantially more
trustworthy MLLM behaviors with promising data and computation efficiency.
Remarkably, using 1.4k annotated data samples, RLHF-V significantly reduces the
hallucination rate of the base MLLM by 34.8%, outperforming the concurrent
LLaVA-RLHF trained on 10k annotated data. The final model achieves
state-of-the-art performance in trustworthiness among open-source MLLMs, and
shows better robustness than GPT-4V in preventing hallucinations aroused from
over-generalization. We open-source our code, model, and data at
https://github.com/RLHF-V/RLHF-V.