ChatPaper.aiChatPaper

VLsI: Verbaal Gelaagd-naar-Interacties van Groot naar Klein Visie Taalmodellen

VLsI: Verbalized Layers-to-Interactions from Large to Small Vision Language Models

December 2, 2024
Auteurs: Byung-Kwan Lee, Ryo Hachiuma, Yu-Chiang Frank Wang, Yong Man Ro, Yueh-Hua Wu
cs.AI

Samenvatting

De recente toename in hoogwaardige visuele instructie-afstemmingssamples van gesloten-bron visie-taalmodellen (VLM's) zoals GPT-4V heeft de vrijgave van open-source VLM's in verschillende modelgroottes versneld. Het opschalen van VLM's om de prestaties te verbeteren met behulp van grotere modellen brengt echter aanzienlijke computationele uitdagingen met zich mee, vooral voor implementatie op apparaten met beperkte middelen zoals mobiele platforms en robots. Om dit aan te pakken, stellen we VLsI voor: Verbalized Layers-to-Interactions, een nieuwe VLM-familie in modelgroottes van 2B en 7B, die efficiëntie prioriteert zonder de nauwkeurigheid in gevaar te brengen. VLsI maakt gebruik van een uniek, laagsgewijs distillatieproces, waarbij tussenliggende "verbalizers" worden geïntroduceerd die kenmerken van elke laag naar de natuurlijke taalruimte mappen, waardoor kleinere VLM's flexibel kunnen worden afgestemd op de redeneerprocessen van grotere VLM's. Deze aanpak vermindert de trainingsinstabiliteit die vaak wordt ondervonden bij uitvoerimitatie en gaat verder dan typische afstemming van de laatste laag door de laagsgewijze voortgang van de kleine VLM's af te stemmen op die van de grote. We valideren VLsI over tien uitdagende visie-taal-benchmarks en behalen opmerkelijke prestatiewinsten (11,0% voor 2B en 17,4% voor 7B) ten opzichte van GPT-4V zonder de noodzaak voor modelopschaling, samenvoeging of architectonische wijzigingen.
English
The recent surge in high-quality visual instruction tuning samples from closed-source vision-language models (VLMs) such as GPT-4V has accelerated the release of open-source VLMs across various model sizes. However, scaling VLMs to improve performance using larger models brings significant computational challenges, especially for deployment on resource-constrained devices like mobile platforms and robots. To address this, we propose VLsI: Verbalized Layers-to-Interactions, a new VLM family in 2B and 7B model sizes, which prioritizes efficiency without compromising accuracy. VLsI leverages a unique, layer-wise distillation process, introducing intermediate "verbalizers" that map features from each layer to natural language space, allowing smaller VLMs to flexibly align with the reasoning processes of larger VLMs. This approach mitigates the training instability often encountered in output imitation and goes beyond typical final-layer tuning by aligning the small VLMs' layer-wise progression with that of the large ones. We validate VLsI across ten challenging vision-language benchmarks, achieving notable performance gains (11.0% for 2B and 17.4% for 7B) over GPT-4V without the need for model scaling, merging, or architectural changes.
PDF152December 3, 2024