OLA-VLM : Élever la Perception Visuelle dans les LMM Multimodaux avec la Distillation d'Incorporation Auxiliaire
OLA-VLM: Elevating Visual Perception in Multimodal LLMs with Auxiliary Embedding Distillation
December 12, 2024
Auteurs: Jitesh Jain, Zhengyuan Yang, Humphrey Shi, Jianfeng Gao, Jianwei Yang
cs.AI
Résumé
La pratique standard pour développer les MLLM contemporains est de fournir des caractéristiques des encodeurs de vision dans le LLM et de les entraîner avec une supervision en langage naturel. Dans ce travail, nous postulons une opportunité négligée d'optimiser les représentations intermédiaires du LLM à travers une perspective de vision (objectif), c'est-à-dire que la supervision uniquement en langage naturel est sous-optimale pour la capacité de compréhension visuelle du MLLM. À cette fin, nous proposons OLA-VLM, la première approche qui distille des connaissances dans les représentations cachées du LLM à partir d'un ensemble de représentations visuelles cibles. Tout d'abord, nous formulons l'objectif lors de la phase de pré-entraînement dans les MLLM comme une optimisation couplée de l'incorporation visuelle prédictive et de la prédiction du prochain jeton de texte. Ensuite, nous étudions les MLLM entraînés uniquement avec une supervision en langage naturel et identifions une corrélation positive entre la qualité des représentations visuelles au sein de ces modèles et leurs performances ultérieures. De plus, en sondant notre OLA-VLM, nous observons une amélioration de la qualité de représentation grâce à l'optimisation de l'incorporation. Ensuite, nous démontrons que notre OLA-VLM surpasse les références à encodeur unique et à encodeurs multiples, prouvant la supériorité de notre approche par rapport à l'alimentation explicite des caractéristiques correspondantes au LLM. En particulier, OLA-VLM améliore les performances de manière significative, avec une marge moyenne allant jusqu'à 2,5% sur divers benchmarks, avec une amélioration notable de 8,7% sur la tâche de Profondeur dans CV-Bench. Notre code est disponible en open source sur https://github.com/SHI-Labs/OLA-VLM.
English
The standard practice for developing contemporary MLLMs is to feed features
from vision encoder(s) into the LLM and train with natural language
supervision. In this work, we posit an overlooked opportunity to optimize the
intermediate LLM representations through a vision perspective (objective),
i.e., solely natural language supervision is sub-optimal for the MLLM's visual
understanding ability. To that end, we propose OLA-VLM, the first approach
distilling knowledge into the LLM's hidden representations from a set of target
visual representations. Firstly, we formulate the objective during the
pretraining stage in MLLMs as a coupled optimization of predictive visual
embedding and next text-token prediction. Secondly, we investigate MLLMs
trained solely with natural language supervision and identify a positive
correlation between the quality of visual representations within these models
and their downstream performance. Moreover, upon probing our OLA-VLM, we
observe improved representation quality owing to the embedding optimization.
Thirdly, we demonstrate that our OLA-VLM outperforms the single and
multi-encoder baselines, proving our approach's superiority over explicitly
feeding the corresponding features to the LLM. Particularly, OLA-VLM boosts
performance by an average margin of up to 2.5% on various benchmarks, with a
notable improvement of 8.7% on the Depth task in CV-Bench. Our code is
open-sourced at https://github.com/SHI-Labs/OLA-VLM .Summary
AI-Generated Summary