OLA-VLM: Verbesserung der visuellen Wahrnehmung in multimodalen LLMs mit zusätzlicher Embedding-Destillation.
OLA-VLM: Elevating Visual Perception in Multimodal LLMs with Auxiliary Embedding Distillation
December 12, 2024
Autoren: Jitesh Jain, Zhengyuan Yang, Humphrey Shi, Jianfeng Gao, Jianwei Yang
cs.AI
Zusammenfassung
Die Standardpraxis zur Entwicklung zeitgenössischer MLLMs besteht darin, Merkmale von Vision-Encodern in den LLM einzuspeisen und mit natürlicher Sprachüberwachung zu trainieren. In dieser Arbeit postulieren wir eine übersehene Möglichkeit zur Optimierung der Zwischenrepräsentationen des LLM durch eine Vision-Perspektive (Objektiv), d. h., ausschließlich natürliche Sprachüberwachung ist für die visuelle Verständnisfähigkeit des MLLM suboptimal. Zu diesem Zweck schlagen wir OLA-VLM vor, den ersten Ansatz zur Destillation von Wissen in die versteckten Repräsentationen des LLM aus einer Reihe von Ziel-Visuellen Repräsentationen. Erstens formulieren wir das Ziel während der Vorphase in MLLMs als eine gekoppelte Optimierung der prädiktiven visuellen Einbettung und der nächsten Text-Token-Vorhersage. Zweitens untersuchen wir MLLMs, die ausschließlich mit natürlicher Sprachüberwachung trainiert wurden, und identifizieren eine positive Korrelation zwischen der Qualität der visuellen Repräsentationen innerhalb dieser Modelle und ihrer Leistung nachgeschaltet. Darüber hinaus beobachten wir bei der Untersuchung unseres OLA-VLM eine verbesserte Repräsentationsqualität aufgrund der Einbettungsoptimierung. Drittens zeigen wir, dass unser OLA-VLM die Einzel- und Mehrfach-Encoder-Baselines übertrifft und die Überlegenheit unseres Ansatzes gegenüber dem expliziten Einspeisen der entsprechenden Merkmale in den LLM beweist. Insbesondere steigert OLA-VLM die Leistung im Durchschnitt um bis zu 2,5% auf verschiedenen Benchmarks, mit einer bemerkenswerten Verbesserung von 8,7% bei der Tiefenaufgabe in CV-Bench. Unser Code ist unter https://github.com/SHI-Labs/OLA-VLM öffentlich zugänglich gemacht.
English
The standard practice for developing contemporary MLLMs is to feed features
from vision encoder(s) into the LLM and train with natural language
supervision. In this work, we posit an overlooked opportunity to optimize the
intermediate LLM representations through a vision perspective (objective),
i.e., solely natural language supervision is sub-optimal for the MLLM's visual
understanding ability. To that end, we propose OLA-VLM, the first approach
distilling knowledge into the LLM's hidden representations from a set of target
visual representations. Firstly, we formulate the objective during the
pretraining stage in MLLMs as a coupled optimization of predictive visual
embedding and next text-token prediction. Secondly, we investigate MLLMs
trained solely with natural language supervision and identify a positive
correlation between the quality of visual representations within these models
and their downstream performance. Moreover, upon probing our OLA-VLM, we
observe improved representation quality owing to the embedding optimization.
Thirdly, we demonstrate that our OLA-VLM outperforms the single and
multi-encoder baselines, proving our approach's superiority over explicitly
feeding the corresponding features to the LLM. Particularly, OLA-VLM boosts
performance by an average margin of up to 2.5% on various benchmarks, with a
notable improvement of 8.7% on the Depth task in CV-Bench. Our code is
open-sourced at https://github.com/SHI-Labs/OLA-VLM .Summary
AI-Generated Summary