Согласование мультимодальных больших языковых моделей с предпочтениями человека: обзор
Aligning Multimodal LLM with Human Preference: A Survey
March 18, 2025
Авторы: Tao Yu, Yi-Fan Zhang, Chaoyou Fu, Junkang Wu, Jinda Lu, Kun Wang, Xingyu Lu, Yunhang Shen, Guibin Zhang, Dingjie Song, Yibo Yan, Tianlong Xu, Qingsong Wen, Zhang Zhang, Yan Huang, Liang Wang, Tieniu Tan
cs.AI
Аннотация
Крупные языковые модели (LLM) способны выполнять широкий спектр общих задач с использованием простых запросов, без необходимости в специализированном обучении для конкретных задач. Мультимодальные крупные языковые модели (MLLM), построенные на основе LLM, продемонстрировали впечатляющий потенциал в решении сложных задач, связанных с визуальными, аудиальными и текстовыми данными. Однако ключевые проблемы, связанные с достоверностью, безопасностью, рассуждениями, подобными человеческим, и соответствием предпочтениям людей, остаются недостаточно решенными. Этот пробел стимулировал появление различных алгоритмов согласования, каждый из которых ориентирован на разные сценарии применения и цели оптимизации. Недавние исследования показали, что алгоритмы согласования являются мощным подходом к решению вышеупомянутых проблем. В данной статье мы стремимся предоставить всесторонний и систематический обзор алгоритмов согласования для MLLM. В частности, мы исследуем четыре ключевых аспекта: (1) сценарии применения, охватываемые алгоритмами согласования, включая общее понимание изображений, работу с несколькими изображениями, видео и аудио, а также расширенные мультимодальные приложения; (2) ключевые факторы при создании наборов данных для согласования, включая источники данных, ответы моделей и аннотации предпочтений; (3) эталонные тесты, используемые для оценки алгоритмов согласования; и (4) обсуждение потенциальных направлений развития алгоритмов согласования в будущем. Эта работа призвана помочь исследователям систематизировать текущие достижения в данной области и вдохновить на создание более эффективных методов согласования. Страница проекта этой статьи доступна по адресу https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models/tree/Alignment.
English
Large language models (LLMs) can handle a wide variety of general tasks with
simple prompts, without the need for task-specific training. Multimodal Large
Language Models (MLLMs), built upon LLMs, have demonstrated impressive
potential in tackling complex tasks involving visual, auditory, and textual
data. However, critical issues related to truthfulness, safety, o1-like
reasoning, and alignment with human preference remain insufficiently addressed.
This gap has spurred the emergence of various alignment algorithms, each
targeting different application scenarios and optimization goals. Recent
studies have shown that alignment algorithms are a powerful approach to
resolving the aforementioned challenges. In this paper, we aim to provide a
comprehensive and systematic review of alignment algorithms for MLLMs.
Specifically, we explore four key aspects: (1) the application scenarios
covered by alignment algorithms, including general image understanding,
multi-image, video, and audio, and extended multimodal applications; (2) the
core factors in constructing alignment datasets, including data sources, model
responses, and preference annotations; (3) the benchmarks used to evaluate
alignment algorithms; and (4) a discussion of potential future directions for
the development of alignment algorithms. This work seeks to help researchers
organize current advancements in the field and inspire better alignment
methods. The project page of this paper is available at
https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models/tree/Alignment.Summary
AI-Generated Summary