ChatPaper.aiChatPaper

Taakvoorkeursoptimalisatie: Verbetering van multimodale grote taalmodellen met visuele taakuitlijning

Task Preference Optimization: Improving Multimodal Large Language Models with Vision Task Alignment

December 26, 2024
Auteurs: Ziang Yan, Zhilin Li, Yinan He, Chenting Wang, Kunchang Li, Xinhao Li, Xiangyu Zeng, Zilei Wang, Yali Wang, Yu Qiao, Limin Wang, Yi Wang
cs.AI

Samenvatting

Huidige multimodale grote taalmodellen (MLLM's) worstelen met het gedetailleerd of nauwkeurig begrijpen van visuele informatie, hoewel ze een uitgebreide perceptie en redenering bieden in een scala van visuele toepassingen. Recente studies ontwikkelen ofwel tools of integreren specifieke visuele taken in het autoregressieve kader, vaak ten koste van de algehele multimodale prestaties. Om dit probleem aan te pakken en MLLM's te verbeteren met visuele taken op een schaalbare manier, stellen we Task Preference Optimization (TPO) voor, een nieuw method die differentieerbare taakvoorkeuren gebruikt die zijn afgeleid van typische gedetailleerde visuele taken. TPO introduceert leerzame taaktokens die verbindingen tot stand brengen tussen meerdere taakspecifieke koppen en de MLLM. Door gebruik te maken van rijke visuele labels tijdens de training, verbetert TPO aanzienlijk de multimodale mogelijkheden van de MLLM en de taakspecifieke prestaties. Door middel van multi-task co-training binnen TPO observeren we synergetische voordelen die de individuele taakprestaties verhogen boven wat haalbaar is met single-task trainingsmethodologieën. Onze toepassing van deze benadering met VideoChat en LLaVA toont een algehele verbetering van 14,6% in multimodale prestaties in vergelijking met basismodellen. Bovendien toont MLLM-TPO robuuste zero-shot mogelijkheden over verschillende taken, waarbij het vergelijkbaar presteert met state-of-the-art begeleide modellen. De code zal worden vrijgegeven op https://github.com/OpenGVLab/TPO
English
Current multimodal large language models (MLLMs) struggle with fine-grained or precise understanding of visuals though they give comprehensive perception and reasoning in a spectrum of vision applications. Recent studies either develop tool-using or unify specific visual tasks into the autoregressive framework, often at the expense of overall multimodal performance. To address this issue and enhance MLLMs with visual tasks in a scalable fashion, we propose Task Preference Optimization (TPO), a novel method that utilizes differentiable task preferences derived from typical fine-grained visual tasks. TPO introduces learnable task tokens that establish connections between multiple task-specific heads and the MLLM. By leveraging rich visual labels during training, TPO significantly enhances the MLLM's multimodal capabilities and task-specific performance. Through multi-task co-training within TPO, we observe synergistic benefits that elevate individual task performance beyond what is achievable through single-task training methodologies. Our instantiation of this approach with VideoChat and LLaVA demonstrates an overall 14.6% improvement in multimodal performance compared to baseline models. Additionally, MLLM-TPO demonstrates robust zero-shot capabilities across various tasks, performing comparably to state-of-the-art supervised models. The code will be released at https://github.com/OpenGVLab/TPO
PDF182December 30, 2024