OLA-VLM: Verbesserung der visuellen Wahrnehmung in multimodalen LLMs mit zusätzlicher Embedding-Destillation.

papers.abstract

Die Standardpraxis zur Entwicklung zeitgenössischer MLLMs besteht darin, Merkmale von Vision-Encodern in den LLM einzuspeisen und mit natürlicher Sprachüberwachung zu trainieren. In dieser Arbeit postulieren wir eine übersehene Möglichkeit zur Optimierung der Zwischenrepräsentationen des LLM durch eine Vision-Perspektive (Objektiv), d. h., ausschließlich natürliche Sprachüberwachung ist für die visuelle Verständnisfähigkeit des MLLM suboptimal. Zu diesem Zweck schlagen wir OLA-VLM vor, den ersten Ansatz zur Destillation von Wissen in die versteckten Repräsentationen des LLM aus einer Reihe von Ziel-Visuellen Repräsentationen. Erstens formulieren wir das Ziel während der Vorphase in MLLMs als eine gekoppelte Optimierung der prädiktiven visuellen Einbettung und der nächsten Text-Token-Vorhersage. Zweitens untersuchen wir MLLMs, die ausschließlich mit natürlicher Sprachüberwachung trainiert wurden, und identifizieren eine positive Korrelation zwischen der Qualität der visuellen Repräsentationen innerhalb dieser Modelle und ihrer Leistung nachgeschaltet. Darüber hinaus beobachten wir bei der Untersuchung unseres OLA-VLM eine verbesserte Repräsentationsqualität aufgrund der Einbettungsoptimierung. Drittens zeigen wir, dass unser OLA-VLM die Einzel- und Mehrfach-Encoder-Baselines übertrifft und die Überlegenheit unseres Ansatzes gegenüber dem expliziten Einspeisen der entsprechenden Merkmale in den LLM beweist. Insbesondere steigert OLA-VLM die Leistung im Durchschnitt um bis zu 2,5% auf verschiedenen Benchmarks, mit einer bemerkenswerten Verbesserung von 8,7% bei der Tiefenaufgabe in CV-Bench. Unser Code ist unter https://github.com/SHI-Labs/OLA-VLM öffentlich zugänglich gemacht.

English

The standard practice for developing contemporary MLLMs is to feed features from vision encoder(s) into the LLM and train with natural language supervision. In this work, we posit an overlooked opportunity to optimize the intermediate LLM representations through a vision perspective (objective), i.e., solely natural language supervision is sub-optimal for the MLLM's visual understanding ability. To that end, we propose OLA-VLM, the first approach distilling knowledge into the LLM's hidden representations from a set of target visual representations. Firstly, we formulate the objective during the pretraining stage in MLLMs as a coupled optimization of predictive visual embedding and next text-token prediction. Secondly, we investigate MLLMs trained solely with natural language supervision and identify a positive correlation between the quality of visual representations within these models and their downstream performance. Moreover, upon probing our OLA-VLM, we observe improved representation quality owing to the embedding optimization. Thirdly, we demonstrate that our OLA-VLM outperforms the single and multi-encoder baselines, proving our approach's superiority over explicitly feeding the corresponding features to the LLM. Particularly, OLA-VLM boosts performance by an average margin of up to 2.5% on various benchmarks, with a notable improvement of 8.7% on the Depth task in CV-Bench. Our code is open-sourced at https://github.com/SHI-Labs/OLA-VLM .

OLA-VLM: Verbesserung der visuellen Wahrnehmung in multimodalen LLMs mit zusätzlicher Embedding-Destillation.

OLA-VLM: Elevating Visual Perception in Multimodal LLMs with Auxiliary Embedding Distillation

papers.abstract

Support