OLA-VLM: Повышение визуального восприятия в мультимодальных LLM с вспомогательным дистилляцией встраиваниями
OLA-VLM: Elevating Visual Perception in Multimodal LLMs with Auxiliary Embedding Distillation
December 12, 2024
Авторы: Jitesh Jain, Zhengyuan Yang, Humphrey Shi, Jianfeng Gao, Jianwei Yang
cs.AI
Аннотация
Стандартной практикой для разработки современных многослойных языковых моделей является подача признаков от визионных кодировщиков в LLM и обучение с использованием натурального языкового надзора. В данной работе мы предполагаем, что существует недооцененная возможность оптимизации промежуточных представлений LLM через визионную перспективу (цель), то есть исключительно натуральный языковой надзор является неоптимальным для визуальной способности понимания MLLM. Для этой цели мы предлагаем OLA-VLM, первый подход к дистилляции знаний в скрытые представления LLM из набора целевых визуальных представлений. Во-первых, мы формулируем цель во время предварительного обучения в MLLM как совместную оптимизацию предсказательного визуального встраивания и предсказания следующего текстового токена. Во-вторых, мы исследуем MLLM, обученные исключительно с использованием натурального языкового надзора, и выявляем положительную корреляцию между качеством визуальных представлений в этих моделях и их производительностью на следующем уровне. Более того, при исследовании нашего OLA-VLM мы наблюдаем улучшение качества представлений благодаря оптимизации встраивания. В-третьих, мы демонстрируем, что наш OLA-VLM превосходит одиночные и мульти-кодировщики базовой линии, доказывая превосходство нашего подхода над явной подачей соответствующих признаков в LLM. В частности, OLA-VLM повышает производительность в среднем на до 2,5% на различных бенчмарках, с заметным улучшением на 8,7% в задаче Глубины в CV-Bench. Наш код доступен по ссылке https://github.com/SHI-Labs/OLA-VLM.
English
The standard practice for developing contemporary MLLMs is to feed features
from vision encoder(s) into the LLM and train with natural language
supervision. In this work, we posit an overlooked opportunity to optimize the
intermediate LLM representations through a vision perspective (objective),
i.e., solely natural language supervision is sub-optimal for the MLLM's visual
understanding ability. To that end, we propose OLA-VLM, the first approach
distilling knowledge into the LLM's hidden representations from a set of target
visual representations. Firstly, we formulate the objective during the
pretraining stage in MLLMs as a coupled optimization of predictive visual
embedding and next text-token prediction. Secondly, we investigate MLLMs
trained solely with natural language supervision and identify a positive
correlation between the quality of visual representations within these models
and their downstream performance. Moreover, upon probing our OLA-VLM, we
observe improved representation quality owing to the embedding optimization.
Thirdly, we demonstrate that our OLA-VLM outperforms the single and
multi-encoder baselines, proving our approach's superiority over explicitly
feeding the corresponding features to the LLM. Particularly, OLA-VLM boosts
performance by an average margin of up to 2.5% on various benchmarks, with a
notable improvement of 8.7% on the Depth task in CV-Bench. Our code is
open-sourced at https://github.com/SHI-Labs/OLA-VLM .Summary
AI-Generated Summary