ChatPaper.aiChatPaper

VLsI: Capas Verbalizadas de Interacciones de Modelos de Lenguaje Visual de Grande a Pequeño

VLsI: Verbalized Layers-to-Interactions from Large to Small Vision Language Models

December 2, 2024
Autores: Byung-Kwan Lee, Ryo Hachiuma, Yu-Chiang Frank Wang, Yong Man Ro, Yueh-Hua Wu
cs.AI

Resumen

El reciente aumento en muestras de ajuste de instrucciones visuales de alta calidad provenientes de modelos visión-lenguaje de código cerrado (VLMs) como GPT-4V ha acelerado la liberación de VLMs de código abierto en diversas tamaños de modelo. Sin embargo, escalar VLMs para mejorar el rendimiento utilizando modelos más grandes conlleva desafíos computacionales significativos, especialmente para su implementación en dispositivos con recursos limitados como plataformas móviles y robots. Para abordar esto, proponemos VLsI: Capas-Interacciones Verbalizadas, una nueva familia de VLMs en tamaños de modelo 2B y 7B, que prioriza la eficiencia sin comprometer la precisión. VLsI aprovecha un proceso de destilación único por capas, introduciendo "verbalizadores" intermedios que mapean características de cada capa al espacio del lenguaje natural, permitiendo que VLMs más pequeños se alineen de manera flexible con los procesos de razonamiento de VLMs más grandes. Este enfoque mitiga la inestabilidad de entrenamiento a menudo encontrada en la imitación de salidas y va más allá del ajuste típico de la capa final al alinear la progresión por capas de los VLMs pequeños con la de los grandes. Validamos VLsI en diez desafiantes benchmarks visión-lenguaje, logrando mejoras de rendimiento notables (11.0% para 2B y 17.4% para 7B) sobre GPT-4V sin necesidad de escalar, fusionar o realizar cambios arquitectónicos en el modelo.
English
The recent surge in high-quality visual instruction tuning samples from closed-source vision-language models (VLMs) such as GPT-4V has accelerated the release of open-source VLMs across various model sizes. However, scaling VLMs to improve performance using larger models brings significant computational challenges, especially for deployment on resource-constrained devices like mobile platforms and robots. To address this, we propose VLsI: Verbalized Layers-to-Interactions, a new VLM family in 2B and 7B model sizes, which prioritizes efficiency without compromising accuracy. VLsI leverages a unique, layer-wise distillation process, introducing intermediate "verbalizers" that map features from each layer to natural language space, allowing smaller VLMs to flexibly align with the reasoning processes of larger VLMs. This approach mitigates the training instability often encountered in output imitation and goes beyond typical final-layer tuning by aligning the small VLMs' layer-wise progression with that of the large ones. We validate VLsI across ten challenging vision-language benchmarks, achieving notable performance gains (11.0% for 2B and 17.4% for 7B) over GPT-4V without the need for model scaling, merging, or architectural changes.

Summary

AI-Generated Summary

PDF152December 3, 2024