Optimisation des préférences de tâches : Amélioration des grands modèles de langage multimodaux avec l'alignement des tâches de vision
Task Preference Optimization: Improving Multimodal Large Language Models with Vision Task Alignment
December 26, 2024
Auteurs: Ziang Yan, Zhilin Li, Yinan He, Chenting Wang, Kunchang Li, Xinhao Li, Xiangyu Zeng, Zilei Wang, Yali Wang, Yu Qiao, Limin Wang, Yi Wang
cs.AI
Résumé
Les modèles de langage multimodaux larges actuels (MLLM) rencontrent des difficultés dans la compréhension fine ou précise des éléments visuels, bien qu'ils offrent une perception et un raisonnement complets dans un éventail d'applications visuelles. Les études récentes développent soit des outils spécifiques, soit unifient des tâches visuelles particulières dans le cadre autorégressif, souvent au détriment des performances multimodales globales. Pour résoudre ce problème et améliorer les MLLM avec des tâches visuelles de manière évolutive, nous proposons l'Optimisation des Préférences de Tâches (TPO), une méthode novatrice qui utilise des préférences de tâches différenciables dérivées de tâches visuelles typiques fines. TPO introduit des jetons de tâche apprenants qui établissent des connexions entre plusieurs têtes spécifiques de tâches et le MLLM. En exploitant des libellés visuels riches lors de l'entraînement, TPO améliore significativement les capacités multimodales du MLLM et les performances spécifiques aux tâches. Grâce à l'entraînement multitâche au sein de TPO, nous observons des avantages synergiques qui élèvent les performances des tâches individuelles au-delà de ce qui est réalisable avec des méthodologies d'entraînement mono-tâche. Notre mise en œuvre de cette approche avec VideoChat et LLaVA démontre une amélioration globale de 14,6 % des performances multimodales par rapport aux modèles de référence. De plus, le MLLM-TPO présente des capacités robustes de zéro-shot sur diverses tâches, se comportant de manière comparable aux modèles supervisés de pointe. Le code sera publié sur https://github.com/OpenGVLab/TPO
English
Current multimodal large language models (MLLMs) struggle with fine-grained
or precise understanding of visuals though they give comprehensive perception
and reasoning in a spectrum of vision applications. Recent studies either
develop tool-using or unify specific visual tasks into the autoregressive
framework, often at the expense of overall multimodal performance. To address
this issue and enhance MLLMs with visual tasks in a scalable fashion, we
propose Task Preference Optimization (TPO), a novel method that utilizes
differentiable task preferences derived from typical fine-grained visual tasks.
TPO introduces learnable task tokens that establish connections between
multiple task-specific heads and the MLLM. By leveraging rich visual labels
during training, TPO significantly enhances the MLLM's multimodal capabilities
and task-specific performance. Through multi-task co-training within TPO, we
observe synergistic benefits that elevate individual task performance beyond
what is achievable through single-task training methodologies. Our
instantiation of this approach with VideoChat and LLaVA demonstrates an overall
14.6% improvement in multimodal performance compared to baseline models.
Additionally, MLLM-TPO demonstrates robust zero-shot capabilities across
various tasks, performing comparably to state-of-the-art supervised models. The
code will be released at https://github.com/OpenGVLab/TPOSummary
AI-Generated Summary