VLsI: Capas Verbalizadas de Interacciones de Modelos de Lenguaje Visual de Grande a Pequeño
VLsI: Verbalized Layers-to-Interactions from Large to Small Vision Language Models
December 2, 2024
Autores: Byung-Kwan Lee, Ryo Hachiuma, Yu-Chiang Frank Wang, Yong Man Ro, Yueh-Hua Wu
cs.AI
Resumen
El reciente aumento en muestras de ajuste de instrucciones visuales de alta calidad provenientes de modelos visión-lenguaje de código cerrado (VLMs) como GPT-4V ha acelerado la liberación de VLMs de código abierto en diversas tamaños de modelo. Sin embargo, escalar VLMs para mejorar el rendimiento utilizando modelos más grandes conlleva desafíos computacionales significativos, especialmente para su implementación en dispositivos con recursos limitados como plataformas móviles y robots. Para abordar esto, proponemos VLsI: Capas-Interacciones Verbalizadas, una nueva familia de VLMs en tamaños de modelo 2B y 7B, que prioriza la eficiencia sin comprometer la precisión. VLsI aprovecha un proceso de destilación único por capas, introduciendo "verbalizadores" intermedios que mapean características de cada capa al espacio del lenguaje natural, permitiendo que VLMs más pequeños se alineen de manera flexible con los procesos de razonamiento de VLMs más grandes. Este enfoque mitiga la inestabilidad de entrenamiento a menudo encontrada en la imitación de salidas y va más allá del ajuste típico de la capa final al alinear la progresión por capas de los VLMs pequeños con la de los grandes. Validamos VLsI en diez desafiantes benchmarks visión-lenguaje, logrando mejoras de rendimiento notables (11.0% para 2B y 17.4% para 7B) sobre GPT-4V sin necesidad de escalar, fusionar o realizar cambios arquitectónicos en el modelo.
English
The recent surge in high-quality visual instruction tuning samples from
closed-source vision-language models (VLMs) such as GPT-4V has accelerated the
release of open-source VLMs across various model sizes. However, scaling VLMs
to improve performance using larger models brings significant computational
challenges, especially for deployment on resource-constrained devices like
mobile platforms and robots. To address this, we propose VLsI: Verbalized
Layers-to-Interactions, a new VLM family in 2B and 7B model sizes, which
prioritizes efficiency without compromising accuracy. VLsI leverages a unique,
layer-wise distillation process, introducing intermediate "verbalizers" that
map features from each layer to natural language space, allowing smaller VLMs
to flexibly align with the reasoning processes of larger VLMs. This approach
mitigates the training instability often encountered in output imitation and
goes beyond typical final-layer tuning by aligning the small VLMs' layer-wise
progression with that of the large ones. We validate VLsI across ten
challenging vision-language benchmarks, achieving notable performance gains
(11.0% for 2B and 17.4% for 7B) over GPT-4V without the need for model scaling,
merging, or architectural changes.Summary
AI-Generated Summary