VoCo-LLaMA: Auf dem Weg zur Bildkompression mit großen Sprachmodellen
VoCo-LLaMA: Towards Vision Compression with Large Language Models
June 18, 2024
Autoren: Xubing Ye, Yukang Gan, Xiaoke Huang, Yixiao Ge, Ying Shan, Yansong Tang
cs.AI
Zusammenfassung
Vision-Language-Modelle (VLMs) haben bemerkenswerte Erfolge bei verschiedenen multimodalen Aufgaben erzielt, sind jedoch häufig durch das begrenzte Kontextfenster und die hohe Rechenleistung bei der Verarbeitung von hochauflösenden Bildern und Videos eingeschränkt. Die Vision-Kompression kann dieses Problem durch die Reduzierung der Anzahl der Vision-Token lindern. Frühere Ansätze komprimieren Vision-Token mit externen Modulen und zwingen LLMs, die komprimierten zu verstehen, was zu einem Verlust visueller Informationen führt. Der Verständnisparadigma der Vision-Token durch LLMs wird jedoch im Kompressionslernprozess nicht vollständig genutzt. Wir schlagen VoCo-LLaMA vor, den ersten Ansatz zur Komprimierung von Vision-Token unter Verwendung von LLMs. Durch die Einführung von Vision-Kompressions-Token während der Phase der Feinabstimmung der Vision-Anweisung und die Nutzung der Aufmerksamkeitsdestillation destilliert unsere Methode, wie LLMs Vision-Token verstehen, in ihre Verarbeitung von VoCo-Token. VoCo-LLaMA erleichtert eine effektive Vision-Kompression und verbessert die Recheneffizienz während der Inferenzphase. Speziell erreicht unsere Methode minimale Leistungseinbußen bei einem Kompressionsverhältnis von 576mal, was zu bis zu 94,8 % weniger FLOPs und einer Beschleunigung der Inferenzzeit um 69,6 % führt. Darüber hinaus zeigt VoCo-LLaMA durch kontinuierliches Training mit zeitlich komprimierten Token-Sequenzen von Videoframes die Fähigkeit, zeitliche Korrelationen zu verstehen und übertrifft frühere Methoden in gängigen Benchmarktests für Video-Fragenbeantwortung. Unser Ansatz bietet einen vielversprechenden Weg, um das volle Potenzial des Kontextfensters von VLMs zu erschließen und damit skalierbarere multimodale Anwendungen zu ermöglichen. Die Projektseite sowie der zugehörige Code sind über https://yxxxb.github.io/VoCo-LLaMA-Seite/{diese https-URL} abrufbar.
English
Vision-Language Models (VLMs) have achieved remarkable success in various
multi-modal tasks, but they are often bottlenecked by the limited context
window and high computational cost of processing high-resolution image inputs
and videos. Vision compression can alleviate this problem by reducing the
vision token count. Previous approaches compress vision tokens with external
modules and force LLMs to understand the compressed ones, leading to visual
information loss. However, the LLMs' understanding paradigm of vision tokens is
not fully utilised in the compression learning process. We propose VoCo-LLaMA,
the first approach to compress vision tokens using LLMs. By introducing Vision
Compression tokens during the vision instruction tuning phase and leveraging
attention distillation, our method distill how LLMs comprehend vision tokens
into their processing of VoCo tokens. VoCo-LLaMA facilitates effective vision
compression and improves the computational efficiency during the inference
stage. Specifically, our method achieves minimal performance loss with a
compression ratio of 576times, resulting in up to 94.8% fewer FLOPs and
69.6% acceleration in inference time. Furthermore, through continuous
training using time-series compressed token sequences of video frames,
VoCo-LLaMA demonstrates the ability to understand temporal correlations,
outperforming previous methods on popular video question-answering benchmarks.
Our approach presents a promising way to unlock the full potential of VLMs'
contextual window, enabling more scalable multi-modal applications. The project
page, along with the associated code, can be accessed via
https://yxxxb.github.io/VoCo-LLaMA-page/{this https URL}.Summary
AI-Generated Summary