VLsI: Verbalisierte Schichten-zu-Interaktionen von großen zu kleinen Vision-Sprachmodellen
VLsI: Verbalized Layers-to-Interactions from Large to Small Vision Language Models
December 2, 2024
Autoren: Byung-Kwan Lee, Ryo Hachiuma, Yu-Chiang Frank Wang, Yong Man Ro, Yueh-Hua Wu
cs.AI
Zusammenfassung
Der kürzliche Anstieg an hochwertigen visuellen Anleitungstuning-Proben von geschlossenen vision-sprachlichen Modellen (VLMs) wie GPT-4V hat die Veröffentlichung von Open-Source VLMs in verschiedenen Modellgrößen beschleunigt. Das Skalieren von VLMs zur Verbesserung der Leistung durch größere Modelle bringt jedoch erhebliche Rechenaufgaben mit sich, insbesondere für den Einsatz auf ressourcenbeschränkten Geräten wie mobilen Plattformen und Robotern. Um dies zu bewältigen, schlagen wir VLsI vor: Verbalisierte Schichten-zu-Interaktionen, eine neue VLM-Familie in den Modellgrößen 2B und 7B, die Effizienz priorisiert, ohne die Genauigkeit zu beeinträchtigen. VLsI nutzt einen einzigartigen, schichtweisen Destillationsprozess, der Zwischen-"Verbalisierer" einführt, die Merkmale von jeder Schicht in den natürlichen Sprachraum abbilden und es kleineren VLMs ermöglichen, sich flexibel mit den Denkprozessen größerer VLMs abzustimmen. Dieser Ansatz mildert die oft auftretende Trainingsinstabilität bei der Ausgabeimitation und geht über das typische Feinschleifen der letzten Schicht hinaus, indem er die schichtweise Progression der kleinen VLMs mit der der großen abgleicht. Wir validieren VLsI anhand von zehn anspruchsvollen vision-sprachlichen Benchmarks und erzielen beachtliche Leistungssteigerungen (11,0 % für 2B und 17,4 % für 7B) gegenüber GPT-4V, ohne dass eine Modellskalierung, Fusion oder architektonische Änderungen erforderlich sind.
English
The recent surge in high-quality visual instruction tuning samples from
closed-source vision-language models (VLMs) such as GPT-4V has accelerated the
release of open-source VLMs across various model sizes. However, scaling VLMs
to improve performance using larger models brings significant computational
challenges, especially for deployment on resource-constrained devices like
mobile platforms and robots. To address this, we propose VLsI: Verbalized
Layers-to-Interactions, a new VLM family in 2B and 7B model sizes, which
prioritizes efficiency without compromising accuracy. VLsI leverages a unique,
layer-wise distillation process, introducing intermediate "verbalizers" that
map features from each layer to natural language space, allowing smaller VLMs
to flexibly align with the reasoning processes of larger VLMs. This approach
mitigates the training instability often encountered in output imitation and
goes beyond typical final-layer tuning by aligning the small VLMs' layer-wise
progression with that of the large ones. We validate VLsI across ten
challenging vision-language benchmarks, achieving notable performance gains
(11.0% for 2B and 17.4% for 7B) over GPT-4V without the need for model scaling,
merging, or architectural changes.Summary
AI-Generated Summary