Afstemming van Multimodale LLM's met Menselijke Voorkeuren: Een Overzicht
Aligning Multimodal LLM with Human Preference: A Survey
March 18, 2025
Auteurs: Tao Yu, Yi-Fan Zhang, Chaoyou Fu, Junkang Wu, Jinda Lu, Kun Wang, Xingyu Lu, Yunhang Shen, Guibin Zhang, Dingjie Song, Yibo Yan, Tianlong Xu, Qingsong Wen, Zhang Zhang, Yan Huang, Liang Wang, Tieniu Tan
cs.AI
Samenvatting
Grote taalmodellen (LLMs) kunnen een breed scala aan algemene taken uitvoeren met eenvoudige prompts, zonder dat taakspecifieke training nodig is. Multimodale Grote Taalmodellen (MLLMs), gebaseerd op LLMs, hebben indrukwekkend potentieel getoond bij het aanpakken van complexe taken die visuele, auditieve en tekstuele gegevens omvatten. Echter, kritieke kwesties met betrekking tot waarheidsgetrouwheid, veiligheid, o1-achtig redeneren en afstemming op menselijke voorkeuren blijven onvoldoende aangepakt. Deze kloof heeft de opkomst van verschillende afstemmingsalgoritmen gestimuleerd, elk gericht op verschillende toepassingsscenario's en optimalisatiedoelen. Recente studies hebben aangetoond dat afstemmingsalgoritmen een krachtige aanpak zijn om de eerder genoemde uitdagingen op te lossen. In dit artikel streven we ernaar een uitgebreid en systematisch overzicht te bieden van afstemmingsalgoritmen voor MLLMs. Specifiek onderzoeken we vier belangrijke aspecten: (1) de toepassingsscenario's die door afstemmingsalgoritmen worden bestreken, waaronder algemeen beeldbegrip, multi-beeld, video en audio, en uitgebreide multimodale toepassingen; (2) de kernfactoren bij het opbouwen van afstemmingsdatasets, waaronder gegevensbronnen, modelresponsen en voorkeursannotaties; (3) de benchmarks die worden gebruikt om afstemmingsalgoritmen te evalueren; en (4) een bespreking van mogelijke toekomstige richtingen voor de ontwikkeling van afstemmingsalgoritmen. Dit werk beoogt onderzoekers te helpen de huidige vooruitgang in het veld te organiseren en betere afstemmingsmethoden te inspireren. De projectpagina van dit artikel is beschikbaar op https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models/tree/Alignment.
English
Large language models (LLMs) can handle a wide variety of general tasks with
simple prompts, without the need for task-specific training. Multimodal Large
Language Models (MLLMs), built upon LLMs, have demonstrated impressive
potential in tackling complex tasks involving visual, auditory, and textual
data. However, critical issues related to truthfulness, safety, o1-like
reasoning, and alignment with human preference remain insufficiently addressed.
This gap has spurred the emergence of various alignment algorithms, each
targeting different application scenarios and optimization goals. Recent
studies have shown that alignment algorithms are a powerful approach to
resolving the aforementioned challenges. In this paper, we aim to provide a
comprehensive and systematic review of alignment algorithms for MLLMs.
Specifically, we explore four key aspects: (1) the application scenarios
covered by alignment algorithms, including general image understanding,
multi-image, video, and audio, and extended multimodal applications; (2) the
core factors in constructing alignment datasets, including data sources, model
responses, and preference annotations; (3) the benchmarks used to evaluate
alignment algorithms; and (4) a discussion of potential future directions for
the development of alignment algorithms. This work seeks to help researchers
organize current advancements in the field and inspire better alignment
methods. The project page of this paper is available at
https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models/tree/Alignment.Summary
AI-Generated Summary