VoCo-LLaMA: Naar visuele compressie met grote taalmodelen
VoCo-LLaMA: Towards Vision Compression with Large Language Models
June 18, 2024
Auteurs: Xubing Ye, Yukang Gan, Xiaoke Huang, Yixiao Ge, Ying Shan, Yansong Tang
cs.AI
Samenvatting
Vision-Language Models (VLMs) hebben opmerkelijke successen geboekt in diverse multimodale taken, maar worden vaak beperkt door het beperkte contextvenster en de hoge rekencapaciteit die nodig is voor het verwerken van hoogwaardige beeldinvoer en video's. Visuele compressie kan dit probleem verlichten door het aantal visuele tokens te verminderen. Eerdere benaderingen comprimeren visuele tokens met externe modules en dwingen LLMs om de gecomprimeerde tokens te begrijpen, wat leidt tot verlies van visuele informatie. Het begrijpingsparadigma van LLMs voor visuele tokens wordt echter niet volledig benut in het compressieleerproces. Wij stellen VoCo-LLaMA voor, de eerste benadering om visuele tokens te comprimeren met behulp van LLMs. Door Vision Compression tokens te introduceren tijdens de fase van visuele instructieafstemming en gebruik te maken van aandacht-distillatie, distilleren onze methode hoe LLMs visuele tokens begrijpen in hun verwerking van VoCo-tokens. VoCo-LLaMA vergemakkelijkt effectieve visuele compressie en verbetert de rekenkundige efficiëntie tijdens de inferentiefase. Specifiek behaalt onze methode minimaal prestatieverlies met een compressieverhouding van 576 keer, wat resulteert in tot 94,8% minder FLOPs en 69,6% versnelling in inferentietijd. Bovendien toont VoCo-LLaMA, door continue training met tijdreeks-gecomprimeerde tokenreeksen van videoframes, het vermogen om temporele correlaties te begrijpen, en overtreft het eerdere methoden op populaire video-vraag-antwoordbenchmarks. Onze benadering biedt een veelbelovende manier om het volledige potentieel van het contextvenster van VLMs te ontsluiten, waardoor meer schaalbare multimodale toepassingen mogelijk worden. De projectpagina, samen met de bijbehorende code, is toegankelijk via https://yxxxb.github.io/VoCo-LLaMA-page/{this https URL}.
English
Vision-Language Models (VLMs) have achieved remarkable success in various
multi-modal tasks, but they are often bottlenecked by the limited context
window and high computational cost of processing high-resolution image inputs
and videos. Vision compression can alleviate this problem by reducing the
vision token count. Previous approaches compress vision tokens with external
modules and force LLMs to understand the compressed ones, leading to visual
information loss. However, the LLMs' understanding paradigm of vision tokens is
not fully utilised in the compression learning process. We propose VoCo-LLaMA,
the first approach to compress vision tokens using LLMs. By introducing Vision
Compression tokens during the vision instruction tuning phase and leveraging
attention distillation, our method distill how LLMs comprehend vision tokens
into their processing of VoCo tokens. VoCo-LLaMA facilitates effective vision
compression and improves the computational efficiency during the inference
stage. Specifically, our method achieves minimal performance loss with a
compression ratio of 576times, resulting in up to 94.8% fewer FLOPs and
69.6% acceleration in inference time. Furthermore, through continuous
training using time-series compressed token sequences of video frames,
VoCo-LLaMA demonstrates the ability to understand temporal correlations,
outperforming previous methods on popular video question-answering benchmarks.
Our approach presents a promising way to unlock the full potential of VLMs'
contextual window, enabling more scalable multi-modal applications. The project
page, along with the associated code, can be accessed via
https://yxxxb.github.io/VoCo-LLaMA-page/{this https URL}.