ChatPaper.aiChatPaper

Согласование мультимодальных больших языковых моделей с предпочтениями человека: обзор

Aligning Multimodal LLM with Human Preference: A Survey

March 18, 2025
Авторы: Tao Yu, Yi-Fan Zhang, Chaoyou Fu, Junkang Wu, Jinda Lu, Kun Wang, Xingyu Lu, Yunhang Shen, Guibin Zhang, Dingjie Song, Yibo Yan, Tianlong Xu, Qingsong Wen, Zhang Zhang, Yan Huang, Liang Wang, Tieniu Tan
cs.AI

Аннотация

Крупные языковые модели (LLM) способны выполнять широкий спектр общих задач с использованием простых запросов, без необходимости в специализированном обучении для конкретных задач. Мультимодальные крупные языковые модели (MLLM), построенные на основе LLM, продемонстрировали впечатляющий потенциал в решении сложных задач, связанных с визуальными, аудиальными и текстовыми данными. Однако ключевые проблемы, связанные с достоверностью, безопасностью, рассуждениями, подобными человеческим, и соответствием предпочтениям людей, остаются недостаточно решенными. Этот пробел стимулировал появление различных алгоритмов согласования, каждый из которых ориентирован на разные сценарии применения и цели оптимизации. Недавние исследования показали, что алгоритмы согласования являются мощным подходом к решению вышеупомянутых проблем. В данной статье мы стремимся предоставить всесторонний и систематический обзор алгоритмов согласования для MLLM. В частности, мы исследуем четыре ключевых аспекта: (1) сценарии применения, охватываемые алгоритмами согласования, включая общее понимание изображений, работу с несколькими изображениями, видео и аудио, а также расширенные мультимодальные приложения; (2) ключевые факторы при создании наборов данных для согласования, включая источники данных, ответы моделей и аннотации предпочтений; (3) эталонные тесты, используемые для оценки алгоритмов согласования; и (4) обсуждение потенциальных направлений развития алгоритмов согласования в будущем. Эта работа призвана помочь исследователям систематизировать текущие достижения в данной области и вдохновить на создание более эффективных методов согласования. Страница проекта этой статьи доступна по адресу https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models/tree/Alignment.
English
Large language models (LLMs) can handle a wide variety of general tasks with simple prompts, without the need for task-specific training. Multimodal Large Language Models (MLLMs), built upon LLMs, have demonstrated impressive potential in tackling complex tasks involving visual, auditory, and textual data. However, critical issues related to truthfulness, safety, o1-like reasoning, and alignment with human preference remain insufficiently addressed. This gap has spurred the emergence of various alignment algorithms, each targeting different application scenarios and optimization goals. Recent studies have shown that alignment algorithms are a powerful approach to resolving the aforementioned challenges. In this paper, we aim to provide a comprehensive and systematic review of alignment algorithms for MLLMs. Specifically, we explore four key aspects: (1) the application scenarios covered by alignment algorithms, including general image understanding, multi-image, video, and audio, and extended multimodal applications; (2) the core factors in constructing alignment datasets, including data sources, model responses, and preference annotations; (3) the benchmarks used to evaluate alignment algorithms; and (4) a discussion of potential future directions for the development of alignment algorithms. This work seeks to help researchers organize current advancements in the field and inspire better alignment methods. The project page of this paper is available at https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models/tree/Alignment.

Summary

AI-Generated Summary

PDF233March 19, 2025