OLA-VLM: Elevando la Percepción Visual en LLMs Multimodales con Destilación de Incrustaciones Auxiliares

Resumen

La práctica estándar para desarrollar MLLMs contemporáneos es alimentar características de un o más codificadores de visión en el LLM y entrenar con supervisión de lenguaje natural. En este trabajo, planteamos una oportunidad pasada por alto para optimizar las representaciones intermedias del LLM a través de una perspectiva visual (objetivo), es decir, que únicamente la supervisión de lenguaje natural es subóptima para la capacidad de comprensión visual del MLLM. Con este fin, proponemos OLA-VLM, el primer enfoque que destila conocimiento en las representaciones ocultas del LLM a partir de un conjunto de representaciones visuales objetivo. En primer lugar, formulamos el objetivo durante la etapa de preentrenamiento en MLLMs como una optimización acoplada de incrustación visual predictiva y predicción del siguiente token de texto. En segundo lugar, investigamos MLLMs entrenados únicamente con supervisión de lenguaje natural e identificamos una correlación positiva entre la calidad de las representaciones visuales dentro de estos modelos y su rendimiento posterior. Además, al sondear nuestro OLA-VLM, observamos una mejora en la calidad de representación debido a la optimización de la incrustación. En tercer lugar, demostramos que nuestro OLA-VLM supera a los baselines de codificador único y multi, demostrando la superioridad de nuestro enfoque sobre alimentar explícitamente las características correspondientes al LLM. En particular, OLA-VLM mejora el rendimiento en un margen promedio de hasta un 2.5% en varios benchmarks, con una notable mejora del 8.7% en la tarea de Profundidad en CV-Bench. Nuestro código está disponible en https://github.com/SHI-Labs/OLA-VLM.

English

The standard practice for developing contemporary MLLMs is to feed features from vision encoder(s) into the LLM and train with natural language supervision. In this work, we posit an overlooked opportunity to optimize the intermediate LLM representations through a vision perspective (objective), i.e., solely natural language supervision is sub-optimal for the MLLM's visual understanding ability. To that end, we propose OLA-VLM, the first approach distilling knowledge into the LLM's hidden representations from a set of target visual representations. Firstly, we formulate the objective during the pretraining stage in MLLMs as a coupled optimization of predictive visual embedding and next text-token prediction. Secondly, we investigate MLLMs trained solely with natural language supervision and identify a positive correlation between the quality of visual representations within these models and their downstream performance. Moreover, upon probing our OLA-VLM, we observe improved representation quality owing to the embedding optimization. Thirdly, we demonstrate that our OLA-VLM outperforms the single and multi-encoder baselines, proving our approach's superiority over explicitly feeding the corresponding features to the LLM. Particularly, OLA-VLM boosts performance by an average margin of up to 2.5% on various benchmarks, with a notable improvement of 8.7% on the Depth task in CV-Bench. Our code is open-sourced at https://github.com/SHI-Labs/OLA-VLM .

OLA-VLM: Elevando la Percepción Visual en LLMs Multimodales con Destilación de Incrustaciones Auxiliares

OLA-VLM: Elevating Visual Perception in Multimodal LLMs with Auxiliary Embedding Distillation

Resumen

Support