VLsI: Verbalisierte Schichten-zu-Interaktionen von großen zu kleinen Vision-Sprachmodellen

papers.abstract

Der kürzliche Anstieg an hochwertigen visuellen Anleitungstuning-Proben von geschlossenen vision-sprachlichen Modellen (VLMs) wie GPT-4V hat die Veröffentlichung von Open-Source VLMs in verschiedenen Modellgrößen beschleunigt. Das Skalieren von VLMs zur Verbesserung der Leistung durch größere Modelle bringt jedoch erhebliche Rechenaufgaben mit sich, insbesondere für den Einsatz auf ressourcenbeschränkten Geräten wie mobilen Plattformen und Robotern. Um dies zu bewältigen, schlagen wir VLsI vor: Verbalisierte Schichten-zu-Interaktionen, eine neue VLM-Familie in den Modellgrößen 2B und 7B, die Effizienz priorisiert, ohne die Genauigkeit zu beeinträchtigen. VLsI nutzt einen einzigartigen, schichtweisen Destillationsprozess, der Zwischen-"Verbalisierer" einführt, die Merkmale von jeder Schicht in den natürlichen Sprachraum abbilden und es kleineren VLMs ermöglichen, sich flexibel mit den Denkprozessen größerer VLMs abzustimmen. Dieser Ansatz mildert die oft auftretende Trainingsinstabilität bei der Ausgabeimitation und geht über das typische Feinschleifen der letzten Schicht hinaus, indem er die schichtweise Progression der kleinen VLMs mit der der großen abgleicht. Wir validieren VLsI anhand von zehn anspruchsvollen vision-sprachlichen Benchmarks und erzielen beachtliche Leistungssteigerungen (11,0 % für 2B und 17,4 % für 7B) gegenüber GPT-4V, ohne dass eine Modellskalierung, Fusion oder architektonische Änderungen erforderlich sind.

English

The recent surge in high-quality visual instruction tuning samples from closed-source vision-language models (VLMs) such as GPT-4V has accelerated the release of open-source VLMs across various model sizes. However, scaling VLMs to improve performance using larger models brings significant computational challenges, especially for deployment on resource-constrained devices like mobile platforms and robots. To address this, we propose VLsI: Verbalized Layers-to-Interactions, a new VLM family in 2B and 7B model sizes, which prioritizes efficiency without compromising accuracy. VLsI leverages a unique, layer-wise distillation process, introducing intermediate "verbalizers" that map features from each layer to natural language space, allowing smaller VLMs to flexibly align with the reasoning processes of larger VLMs. This approach mitigates the training instability often encountered in output imitation and goes beyond typical final-layer tuning by aligning the small VLMs' layer-wise progression with that of the large ones. We validate VLsI across ten challenging vision-language benchmarks, achieving notable performance gains (11.0% for 2B and 17.4% for 7B) over GPT-4V without the need for model scaling, merging, or architectural changes.

VLsI: Verbalisierte Schichten-zu-Interaktionen von großen zu kleinen Vision-Sprachmodellen

VLsI: Verbalized Layers-to-Interactions from Large to Small Vision Language Models

papers.abstract

Support