ChatPaper.aiChatPaper

OLA-VLM: Het verbeteren van visuele perceptie in multimodale LLM's met hulp van bijbehorende insluitingdestillatie.

OLA-VLM: Elevating Visual Perception in Multimodal LLMs with Auxiliary Embedding Distillation

December 12, 2024
Auteurs: Jitesh Jain, Zhengyuan Yang, Humphrey Shi, Jianfeng Gao, Jianwei Yang
cs.AI

Samenvatting

De standaardpraktijk voor het ontwikkelen van hedendaagse MLLM's is om kenmerken van visuele encoders in de LLM te voeren en te trainen met natuurlijke taalsupervisie. In dit werk stellen we een over het hoofd gezien kans voor om de tussenliggende LLM-representaties te optimaliseren door een visueel perspectief (doel), d.w.z. uitsluitend natuurlijke taalsupervisie is suboptimaal voor het visuele begripsvermogen van de MLLM. Met dat doel stellen we OLA-VLM voor, de eerste benadering die kennis destilleert in de verborgen representaties van de LLM uit een reeks doelvisuele representaties. Ten eerste formuleren we het doel tijdens de pretrainingfase in MLLM's als een gekoppelde optimalisatie van voorspellende visuele insluiting en voorspelling van het volgende tekst-token. Ten tweede onderzoeken we MLLM's die uitsluitend zijn getraind met natuurlijke taalsupervisie en identificeren we een positieve correlatie tussen de kwaliteit van visuele representaties binnen deze modellen en hun prestaties stroomafwaarts. Bovendien, bij het onderzoeken van onze OLA-VLM, observeren we een verbeterde representatiekwaliteit als gevolg van de insluitingsoptimalisatie. Ten derde tonen we aan dat onze OLA-VLM de enkele en multi-encoder baselines overtreft, waarbij we de superioriteit van onze benadering aantonen ten opzichte van het expliciet voeren van de overeenkomstige kenmerken aan de LLM. In het bijzonder verbetert OLA-VLM de prestaties met een gemiddelde marge tot 2,5% op verschillende benchmarks, met een opmerkelijke verbetering van 8,7% op de Dieptetaak in CV-Bench. Onze code is open-source beschikbaar op https://github.com/SHI-Labs/OLA-VLM.
English
The standard practice for developing contemporary MLLMs is to feed features from vision encoder(s) into the LLM and train with natural language supervision. In this work, we posit an overlooked opportunity to optimize the intermediate LLM representations through a vision perspective (objective), i.e., solely natural language supervision is sub-optimal for the MLLM's visual understanding ability. To that end, we propose OLA-VLM, the first approach distilling knowledge into the LLM's hidden representations from a set of target visual representations. Firstly, we formulate the objective during the pretraining stage in MLLMs as a coupled optimization of predictive visual embedding and next text-token prediction. Secondly, we investigate MLLMs trained solely with natural language supervision and identify a positive correlation between the quality of visual representations within these models and their downstream performance. Moreover, upon probing our OLA-VLM, we observe improved representation quality owing to the embedding optimization. Thirdly, we demonstrate that our OLA-VLM outperforms the single and multi-encoder baselines, proving our approach's superiority over explicitly feeding the corresponding features to the LLM. Particularly, OLA-VLM boosts performance by an average margin of up to 2.5% on various benchmarks, with a notable improvement of 8.7% on the Depth task in CV-Bench. Our code is open-sourced at https://github.com/SHI-Labs/OLA-VLM .
PDF112December 13, 2024