RLHF-V: К созданию надежных многомодальных языковых моделей через выравнивание поведения на основе детализированной корректирующей обратной связи от человека
RLHF-V: Towards Trustworthy MLLMs via Behavior Alignment from Fine-grained Correctional Human Feedback
December 1, 2023
Авторы: Tianyu Yu, Yuan Yao, Haoye Zhang, Taiwen He, Yifeng Han, Ganqu Cui, Jinyi Hu, Zhiyuan Liu, Hai-Tao Zheng, Maosong Sun, Tat-Seng Chua
cs.AI
Аннотация
Мультимодальные большие языковые модели (MLLM) недавно продемонстрировали впечатляющие способности в области мультимодального понимания, рассуждения и взаимодействия. Однако существующие MLLM часто страдают от серьезных проблем с галлюцинациями, генерируя текст, который не соответствует фактам, связанным с изображениями. Эта проблема делает существующие MLLM ненадежными и, следовательно, непрактичными в реальных (особенно высокорисковых) приложениях. Для решения этой задачи мы представляем RLHF-V, который повышает надежность MLLM за счет выравнивания поведения на основе детализированной корректирующей обратной связи от человека. В частности, RLHF-V собирает предпочтения людей в виде исправлений на уровне сегментов для галлюцинаций и выполняет плотную оптимизацию прямых предпочтений на основе этой обратной связи. Комплексные эксперименты на пяти эталонных тестах, как в автоматической, так и в человеческой оценке, показывают, что RLHF-V позволяет добиться значительно более надежного поведения MLLM с высокой эффективностью данных и вычислений. Примечательно, что используя 1,4 тыс. аннотированных образцов данных, RLHF-V значительно снижает уровень галлюцинаций базовой MLLM на 34,8%, превосходя конкурирующую модель LLaVA-RLHF, обученную на 10 тыс. аннотированных данных. Финальная модель демонстрирует наилучшие показатели надежности среди открытых MLLM и показывает более высокую устойчивость, чем GPT-4V, в предотвращении галлюцинаций, вызванных излишним обобщением. Мы открываем исходный код, модель и данные по адресу https://github.com/RLHF-V/RLHF-V.
English
Multimodal Large Language Models (MLLMs) have recently demonstrated
impressive capabilities in multimodal understanding, reasoning, and
interaction. However, existing MLLMs prevalently suffer from serious
hallucination problems, generating text that is not factually grounded in
associated images. The problem makes existing MLLMs untrustworthy and thus
impractical in real-world (especially high-stakes) applications. To address the
challenge, we present RLHF-V, which enhances MLLM trustworthiness via behavior
alignment from fine-grained correctional human feedback. Specifically, RLHF-V
collects human preference in the form of segment-level corrections on
hallucinations, and performs dense direct preference optimization over the
human feedback. Comprehensive experiments on five benchmarks in both automatic
and human evaluation show that, RLHF-V can enable substantially more
trustworthy MLLM behaviors with promising data and computation efficiency.
Remarkably, using 1.4k annotated data samples, RLHF-V significantly reduces the
hallucination rate of the base MLLM by 34.8%, outperforming the concurrent
LLaVA-RLHF trained on 10k annotated data. The final model achieves
state-of-the-art performance in trustworthiness among open-source MLLMs, and
shows better robustness than GPT-4V in preventing hallucinations aroused from
over-generalization. We open-source our code, model, and data at
https://github.com/RLHF-V/RLHF-V.