Taakvoorkeursoptimalisatie: Verbetering van multimodale grote taalmodellen met visuele taakuitlijning
Task Preference Optimization: Improving Multimodal Large Language Models with Vision Task Alignment
December 26, 2024
Auteurs: Ziang Yan, Zhilin Li, Yinan He, Chenting Wang, Kunchang Li, Xinhao Li, Xiangyu Zeng, Zilei Wang, Yali Wang, Yu Qiao, Limin Wang, Yi Wang
cs.AI
Samenvatting
Huidige multimodale grote taalmodellen (MLLM's) worstelen met het gedetailleerd of nauwkeurig begrijpen van visuele informatie, hoewel ze een uitgebreide perceptie en redenering bieden in een scala van visuele toepassingen. Recente studies ontwikkelen ofwel tools of integreren specifieke visuele taken in het autoregressieve kader, vaak ten koste van de algehele multimodale prestaties. Om dit probleem aan te pakken en MLLM's te verbeteren met visuele taken op een schaalbare manier, stellen we Task Preference Optimization (TPO) voor, een nieuw method die differentieerbare taakvoorkeuren gebruikt die zijn afgeleid van typische gedetailleerde visuele taken. TPO introduceert leerzame taaktokens die verbindingen tot stand brengen tussen meerdere taakspecifieke koppen en de MLLM. Door gebruik te maken van rijke visuele labels tijdens de training, verbetert TPO aanzienlijk de multimodale mogelijkheden van de MLLM en de taakspecifieke prestaties. Door middel van multi-task co-training binnen TPO observeren we synergetische voordelen die de individuele taakprestaties verhogen boven wat haalbaar is met single-task trainingsmethodologieën. Onze toepassing van deze benadering met VideoChat en LLaVA toont een algehele verbetering van 14,6% in multimodale prestaties in vergelijking met basismodellen. Bovendien toont MLLM-TPO robuuste zero-shot mogelijkheden over verschillende taken, waarbij het vergelijkbaar presteert met state-of-the-art begeleide modellen. De code zal worden vrijgegeven op https://github.com/OpenGVLab/TPO
English
Current multimodal large language models (MLLMs) struggle with fine-grained
or precise understanding of visuals though they give comprehensive perception
and reasoning in a spectrum of vision applications. Recent studies either
develop tool-using or unify specific visual tasks into the autoregressive
framework, often at the expense of overall multimodal performance. To address
this issue and enhance MLLMs with visual tasks in a scalable fashion, we
propose Task Preference Optimization (TPO), a novel method that utilizes
differentiable task preferences derived from typical fine-grained visual tasks.
TPO introduces learnable task tokens that establish connections between
multiple task-specific heads and the MLLM. By leveraging rich visual labels
during training, TPO significantly enhances the MLLM's multimodal capabilities
and task-specific performance. Through multi-task co-training within TPO, we
observe synergistic benefits that elevate individual task performance beyond
what is achievable through single-task training methodologies. Our
instantiation of this approach with VideoChat and LLaVA demonstrates an overall
14.6% improvement in multimodal performance compared to baseline models.
Additionally, MLLM-TPO demonstrates robust zero-shot capabilities across
various tasks, performing comparably to state-of-the-art supervised models. The
code will be released at https://github.com/OpenGVLab/TPO