RLHF-V : Vers des MLLM fiables grâce à l'alignement comportemental via un retour humain correctif granulaire
RLHF-V: Towards Trustworthy MLLMs via Behavior Alignment from Fine-grained Correctional Human Feedback
December 1, 2023
papers.authors: Tianyu Yu, Yuan Yao, Haoye Zhang, Taiwen He, Yifeng Han, Ganqu Cui, Jinyi Hu, Zhiyuan Liu, Hai-Tao Zheng, Maosong Sun, Tat-Seng Chua
cs.AI
papers.abstract
Les modèles de langage multimodaux de grande taille (MLLMs) ont récemment démontré des capacités impressionnantes en compréhension, raisonnement et interaction multimodaux. Cependant, les MLLMs existants souffrent généralement de graves problèmes d'hallucination, générant des textes qui ne sont pas factuellement ancrés dans les images associées. Ce problème rend les MLLMs existants peu fiables et donc peu pratiques dans des applications réelles (en particulier à enjeux élevés). Pour relever ce défi, nous présentons RLHF-V, qui améliore la fiabilité des MLLMs grâce à un alignement comportemental basé sur des retours humains correctifs granulaires. Plus précisément, RLHF-V collecte les préférences humaines sous forme de corrections au niveau des segments pour les hallucinations, et effectue une optimisation dense des préférences directes sur ces retours humains. Des expériences approfondies sur cinq benchmarks, à la fois en évaluation automatique et humaine, montrent que RLHF-V permet des comportements MLLMs nettement plus fiables avec une efficacité prometteuse en termes de données et de calcul. Fait remarquable, en utilisant 1,4k échantillons de données annotées, RLHF-V réduit significativement le taux d'hallucination du MLLM de base de 34,8%, surpassant le LLaVA-RLHF concurrent entraîné sur 10k données annotées. Le modèle final atteint des performances de pointe en matière de fiabilité parmi les MLLMs open-source, et montre une meilleure robustesse que GPT-4V pour prévenir les hallucinations dues à une sur-généralisation. Nous mettons à disposition notre code, modèle et données à l'adresse https://github.com/RLHF-V/RLHF-V.
English
Multimodal Large Language Models (MLLMs) have recently demonstrated
impressive capabilities in multimodal understanding, reasoning, and
interaction. However, existing MLLMs prevalently suffer from serious
hallucination problems, generating text that is not factually grounded in
associated images. The problem makes existing MLLMs untrustworthy and thus
impractical in real-world (especially high-stakes) applications. To address the
challenge, we present RLHF-V, which enhances MLLM trustworthiness via behavior
alignment from fine-grained correctional human feedback. Specifically, RLHF-V
collects human preference in the form of segment-level corrections on
hallucinations, and performs dense direct preference optimization over the
human feedback. Comprehensive experiments on five benchmarks in both automatic
and human evaluation show that, RLHF-V can enable substantially more
trustworthy MLLM behaviors with promising data and computation efficiency.
Remarkably, using 1.4k annotated data samples, RLHF-V significantly reduces the
hallucination rate of the base MLLM by 34.8%, outperforming the concurrent
LLaVA-RLHF trained on 10k annotated data. The final model achieves
state-of-the-art performance in trustworthiness among open-source MLLMs, and
shows better robustness than GPT-4V in preventing hallucinations aroused from
over-generalization. We open-source our code, model, and data at
https://github.com/RLHF-V/RLHF-V.